MLPerf Inference 5.0: свежие данные по B200, TPU v6e, Granite Rapids, а также дебют GB200 и MI325X

hardwareluxx news new

MLCommons опубликовала результаты нового раунда бенчмарков MLPerf Inference 5.0 — одного из наиболее авторитетных и независимых сравнений производительности ИИ-ускорителей в задачах инференса. В отличие от маркетинговых заявлений производителей, результаты MLPerf проходят прозрачную верификацию и дают объективную оценку вычислительных платформ.

В предыдущем раунде (MLPerf Inference 4.1) впервые появились предварительные результаты ускорителя NVIDIA B200 (архитектура Blackwell), Google TPU v6e и CPU-инференса на базе Intel Xeon 6 6980P (Granite Rapids). AMD также впервые приняла участие, представив данные по Instinct MI300X. В текущем выпуске MLPerf представлены не только обновлённые результаты этих решений, но и новые системы: NVIDIA GB200 и AMD Instinct MI325X. Это позволяет оценить эволюцию производительности как самих чипов, так и их программных стеков.

xAI Colossus (Quelle: ServeTheHome)

Отдельного внимания заслуживает новая модель бенчмарка, построенная на базе Llama 3.1 405B — одного из крупнейших LLM, открывающая перспективы сравнения систем в задачах инференса масштабных языковых моделей. Все результаты доступны в полном объёме на сайте MLCommons.

Анализ данных

Мы выбрали наиболее показательные конфигурации для сравнения производительности актуальных ускорителей ИИ. Все результаты представлены в двух режимах: offline (инференс выполняется локально, без ограничения по задержке) и server (оценка критической к задержкам нагрузки в онлайн-сценариях).

GPT-J - Offline/Server

PyTorch

1x NVIDIA GH200

2695.15XX

2159.58XX

2x Intel Xeon 6 6980P (Granite Rapids) Inference 5.0

516.77XX

265.06XX

2x Intel Xeon 6 6980P (Granite Rapids) Inference 4.1

498.32XX

217.47XX

2x Intel Platinum 8592+ (Emerald Rapids)

251.30XX

113.74XX

токены/с

Больше - лучше

На фоне резкого роста требований к производительности, CPU-решения теряют актуальность: ускорители ИИ кратно превосходят их по итоговым метрикам. Intel уже демонстрировала результаты для двух Xeon 6 6980P (128 ядер) в версии 4.1, в версии 5.0 они повторяются — прирост по сравнению с Xeon Platinum 8592+ (Emerald Rapids) удвоен, а между релизами наблюдается умеренное улучшение. Однако по сравнению с NVIDIA GH200 отставание CPU-решений остаётся значительным.

Stable Diffusion XL - Offline/Server

Flax

1x Google TPU v6e Inference 5.0

6.08XX

5.48XX

1x Google TPU v6e Inference 4.1

5.44XX

4.49XX

1x NVIDIA GH200:

2.31XX

2.02XX

1x Google TPU v5e

1.75XX

1.55XX

токены/с

Больше - лучше

Google представила обновлённые результаты TPU v6e, показав рост производительности на 11% (offline) и 22% (server) по сравнению с предыдущими данными. Для масштабов Google Cloud такой прирост в рамках одного поколения — весомый результат.

Переход от TPU v5e к v6e оказался особенно впечатляющим — именно такие скачки и оправдывают разработку собственной специализированной аппаратной платформы для гипермасштабных инфраструктур.

Llama2 70B - Offline/Server

vLLM 0.6.5, PyTorch 2.7.0, ROCm 6.3.1 (AMD), TensorRT 10.8, CUDA 12.8 (NVIDIA)

8x NVIDIA B200 180 GB (1.000 W)

98858.00XX

98443.30XX

8x NVIDIA H200 141 GB (700 W)

34988.20XX

33071.50XX

8x NVIDIA H200 141 GB CTS (1.000 W)

34864.20XX

32789.70XX

8x AMD Instinct MI325X 256 GB (1000 W)

33928.10XX

30724.50XX

8x AMD Instinct MI300X 192 GB (750 W)

23514.80XX

21028.20XX

токены/с

Больше - лучше

Если в прошлом раунде результаты B200 были предварительными, то теперь представлены финальные данные. Ускоритель получил 180 ГБ памяти HBM3E (против 141 ГБ ранее), а архитектура Blackwell была оптимизирована под задачи инференса. Важное отличие — B200 теперь может работать с TDP до 1000 Вт (у H200 — до 700 Вт). Однако, как показывают результаты версии с CTS (Custom Thermal Solution), одной только прибавки по питанию недостаточно — архитектурные улучшения и ПО играют не меньшую роль.

В задачах инференса модели Llama2-70B B200 работает в 3 раза быстрее своего предшественника, что соответствует заявленным NVIDIA оценкам производительности.

Свежие данные позволяют сравнить флагманы AMD и NVIDIA. Instinct MI300X всё ещё уступает ускорителям Hopper (H200), но новый Instinct MI325X с 256 ГБ HBM3E и энергопотреблением до 1000 Вт демонстрирует паритет по «сырым» метрикам. Однако против B200 от NVIDIA у AMD пока нет убедительного ответа — ускоритель NVIDIA стабильно лидирует.

Следует помнить: производители публикуют собственные измерения, часто в идеальных условиях. AMD, например, в презентации MI325X демонстрировала уверенное превосходство над Hopper, но тогда сравнение не включало Blackwell. Аналогично, NVIDIA заявляет приросты в 30–60%, но обычно ссылается на узкие рабочие сценарии. Результаты MLPerf Inference 5.0 получены независимо и дают репрезентативную картину, пусть и в ограниченном наборе задач. Они не охватывают весь спектр ИИ-применений, но позволяют объективно оценить прогресс архитектур и ПО.

Mixtral 8x7B - Offline/Server

TensorRT 10.8, CUDA 12.8

8x NVIDIA B200 180 GB (1.000 W)

128148.0XX

126845.0XX

8x NVIDIA H200 141 GB (700 W)

62629.60XX

61802.00XX

8x NVIDIA H100 80 GB (700 W)

52724.40XX

53299.30XX

токены/с

Больше - лучше

Одна из ключевых новаций MLPerf Inference 5.0 — включение в тестовый набор модели Mixtral 8x7B, построенной по архитектуре MoE (Mixture of Experts). Напомним, что модели MoE объединяют несколько нейросетей-экспертов, а специальная gating-сеть динамически определяет, какой «эксперт» наиболее релевантен для текущего входа пользователя. Такой подход позволяет повысить эффективность инференса за счёт активации лишь части параметров модели, что важно при работе с крупными LLM.

В MLPerf 5.0 число представленных решений для MoE-бенчмарка ограничено. Все актуальные результаты получены на оборудовании NVIDIA — ускорителях H100, H200 и B200. Отсутствие данных от AMD и Intel не позволяет провести полноценное сравнение на уровне архитектур.

Llama 3.1 405B - Offline/Server

TensorRT 10.8, CUDA 12.8

72x NVIDIA GB200 NVL72

13886.40XX

8850.10XX

8x NVIDIA B200 180 GB (1.00 W)

1525.29XX

845.82XX

4x NVIDIA GB200 NVL4

801.91XX

522.12XX

8x NVIDIA H200 141 GB (700 W)

559.21XX

291.49XX

8x NVIDIA H100 80 GB (700 W)

397.31XX

277.13XX

токены/с

Больше - лучше

При инференсе масштабной модели Llama 3.1 (405B параметров) особенно ярко проявляется влияние масштабируемости аппаратной платформы. Между поколениями H100, H200 и B200 можно наблюдать линейный рост производительности, но ключевым становится не столько абсолютная пропускная способность, сколько требуемая конфигурация системы для ее достижения — ведь именно это определяет стоимость и эффективность развертывания. В этом контексте наилучшие показатели продемонстрировала конфигурация GB200-NVL72 — флагманская платформа NVIDIA для hyperscale-нагрузок. Сравнение с системами AMD Instinct в этом тесте, к сожалению, отсутствует.

Рынок ИИ-инфраструктуры всё активнее смещается в сторону задач инференса, особенно на фоне бурного роста использования LLM. Тем не менее, потребность в ресурсах для обучения остаётся высокой, особенно с появлением новых моделей и обучающих датасетов. Архитектура Blackwell от NVIDIA ориентирована преимущественно на инференс, и результаты B200 подтверждают это: высокая энергоэффективность, масштабируемость, поддержка HBM3E и продвинутые возможности управления тепловым пакетом делают его безусловным лидером. AMD, по крайней мере в рамках MLPerf 5.0, пока не может предложить сопоставимую альтернативу и во втором полугодии 2025 года будет вынуждена активнее конкурировать с Blackwell-решениями.

TPU v6e от Google остаётся замкнутым решением: TPU используется исключительно внутри дата-центров Google, хотя и доступен внешним клиентам через облачные сервисы. Однако универсального применения у TPU нет — их эффективность напрямую зависит от характера целевой задачи, а потому сфера их применения остаётся нишевой.

Полные данные и отчёты MLPerf Inference 5.0 доступны на официальном сайте MLCommons.

Данные о правообладателе фото и видеоматериалов взяты с сайта «HardwareLUXX Russia», подробнее в Правилах сервиса
Анализ
×