На конференции Ignite Amazon представила Trainium3 — новое поколение собственной аппаратной платформы для ИИ. Два года назад компания вывела Trainium2, который позже поступил в Trn1-инстансы AWS.
Trainium3 фактически формирует уже четвертое поколение ускорителей для тренировки, созданных командой Annapurna Labs после ее перехода под управление Amazon. Чип выпускается на мощностях TSMC по 3-нм техпроцессу (детали не раскрываются). Конфигурация включает 144 ГБ HBM3E с суммарной пропускной способностью 4,9 ТБ/с — рост по обеим метрикам более чем на 50 % относительно Trainium2. В режимах FP8 Trainium3 достигает 2,52 PFLOPS. Для ориентира: Instinct MI355X выдаёт 10,1 PFLOPS, Blackwell-GPU — 9 PFLOPS.
Google обучает собственные модели на TPU, и Amazon стремится выдержать темп конкурента, поэтому Trainium3 проектировали с акцентом на масштабирование. Четыре ускорителя работают в одном сервере, а конфигурация EC2 Trn3 UltraServer объединяет 144 чипа. Это даёт 362 PFLOPS пиковой производительности при 20,7 ТБ HBM3E и совокупной пропускной способности 706 ТБ/с. Для сравнения: система GB300-NVL с 72 GPU Blackwell достигает 720 PFLOPS.
Amazon заявляет, что новые инстансы обеспечивают рост производительности в 4,4 раза и повышение энергоэффективности в четыре раза. В метриках вроде Tokens per Megawatt и задержек при инференсе Trainium3 тоже должен выглядеть конкурентно. Запуск инстансов на базе Trainium3 запланирован на ближайшие месяцы.
NVLink Fusion для будущих систем
Несмотря на движение к большей автономности, AWS и NVIDIA объявили о совместной разработке будущей архитектуры. Amazon создаст кастомный процессор Trainium4, который интегрируется с GPU NVIDIA через NVLink Fusion. Проект охватывает поддержку NVLink и NVIDIA MGX — это первый шаг к совместной инфраструктуре AWS и NVIDIA для NVLink Fusion.
Дополнительные технические детали — в том числе размещение чиплета NVLink и блока NVLink C2C PHY — описаны в материале по презентации Hot Chips.