MLCommons опубликовала результаты нового раунда бенчмарков MLPerf Inference 5.0 — одного из наиболее авторитетных и независимых сравнений производительности ИИ-ускорителей в задачах инференса. В отличие от маркетинговых заявлений производителей, результаты MLPerf проходят прозрачную верификацию и дают объективную оценку вычислительных платформ.
В предыдущем раунде (MLPerf Inference 4.1) впервые появились предварительные результаты ускорителя NVIDIA B200 (архитектура Blackwell), Google TPU v6e и CPU-инференса на базе Intel Xeon 6 6980P (Granite Rapids). AMD также впервые приняла участие, представив данные по Instinct MI300X. В текущем выпуске MLPerf представлены не только обновлённые результаты этих решений, но и новые системы: NVIDIA GB200 и AMD Instinct MI325X. Это позволяет оценить эволюцию производительности как самих чипов, так и их программных стеков.
Отдельного внимания заслуживает новая модель бенчмарка, построенная на базе Llama 3.1 405B — одного из крупнейших LLM, открывающая перспективы сравнения систем в задачах инференса масштабных языковых моделей. Все результаты доступны в полном объёме на сайте MLCommons.
Анализ данных
Мы выбрали наиболее показательные конфигурации для сравнения производительности актуальных ускорителей ИИ. Все результаты представлены в двух режимах: offline (инференс выполняется локально, без ограничения по задержке) и server (оценка критической к задержкам нагрузки в онлайн-сценариях).
3D-Unet - Offline
PyTorch
6.74XX
2x Intel Xeon 6 6980P (Granite Rapids) Inference 5.0
3.65XX
2x Intel Xeon 6 6980P (Granite Rapids) Inference 4.1
3.29XX
2x Intel Platinum 8592+ (Emerald Rapids)
1.93XX
токены/с
Больше - лучше
GPT-J - Offline/Server
PyTorch
2695.15XX
2159.58XX
2x Intel Xeon 6 6980P (Granite Rapids) Inference 5.0
516.77XX
265.06XX
2x Intel Xeon 6 6980P (Granite Rapids) Inference 4.1
498.32XX
217.47XX
2x Intel Platinum 8592+ (Emerald Rapids)
251.30XX
113.74XX
токены/с
Больше - лучше
На фоне резкого роста требований к производительности, CPU-решения теряют актуальность: ускорители ИИ кратно превосходят их по итоговым метрикам. Intel уже демонстрировала результаты для двух Xeon 6 6980P (128 ядер) в версии 4.1, в версии 5.0 они повторяются — прирост по сравнению с Xeon Platinum 8592+ (Emerald Rapids) удвоен, а между релизами наблюдается умеренное улучшение. Однако по сравнению с NVIDIA GH200 отставание CPU-решений остаётся значительным.
Stable Diffusion XL - Offline/Server
Flax
1x Google TPU v6e Inference 5.0
6.08XX
5.48XX
1x Google TPU v6e Inference 4.1
5.44XX
4.49XX
2.31XX
2.02XX
1.75XX
1.55XX
токены/с
Больше - лучше
Google представила обновлённые результаты TPU v6e, показав рост производительности на 11% (offline) и 22% (server) по сравнению с предыдущими данными. Для масштабов Google Cloud такой прирост в рамках одного поколения — весомый результат.
Переход от TPU v5e к v6e оказался особенно впечатляющим — именно такие скачки и оправдывают разработку собственной специализированной аппаратной платформы для гипермасштабных инфраструктур.
Llama2 70B - Offline/Server
vLLM 0.6.5, PyTorch 2.7.0, ROCm 6.3.1 (AMD), TensorRT 10.8, CUDA 12.8 (NVIDIA)
8x NVIDIA B200 180 GB (1.000 W)
98858.00XX
98443.30XX
34988.20XX
33071.50XX
8x NVIDIA H200 141 GB CTS (1.000 W)
34864.20XX
32789.70XX
8x AMD Instinct MI325X 256 GB (1000 W)
33928.10XX
30724.50XX
8x AMD Instinct MI300X 192 GB (750 W)
23514.80XX
21028.20XX
токены/с
Больше - лучше
Если в прошлом раунде результаты B200 были предварительными, то теперь представлены финальные данные. Ускоритель получил 180 ГБ памяти HBM3E (против 141 ГБ ранее), а архитектура Blackwell была оптимизирована под задачи инференса. Важное отличие — B200 теперь может работать с TDP до 1000 Вт (у H200 — до 700 Вт). Однако, как показывают результаты версии с CTS (Custom Thermal Solution), одной только прибавки по питанию недостаточно — архитектурные улучшения и ПО играют не меньшую роль.
В задачах инференса модели Llama2-70B B200 работает в 3 раза быстрее своего предшественника, что соответствует заявленным NVIDIA оценкам производительности.
Свежие данные позволяют сравнить флагманы AMD и NVIDIA. Instinct MI300X всё ещё уступает ускорителям Hopper (H200), но новый Instinct MI325X с 256 ГБ HBM3E и энергопотреблением до 1000 Вт демонстрирует паритет по «сырым» метрикам. Однако против B200 от NVIDIA у AMD пока нет убедительного ответа — ускоритель NVIDIA стабильно лидирует.
Следует помнить: производители публикуют собственные измерения, часто в идеальных условиях. AMD, например, в презентации MI325X демонстрировала уверенное превосходство над Hopper, но тогда сравнение не включало Blackwell. Аналогично, NVIDIA заявляет приросты в 30–60%, но обычно ссылается на узкие рабочие сценарии. Результаты MLPerf Inference 5.0 получены независимо и дают репрезентативную картину, пусть и в ограниченном наборе задач. Они не охватывают весь спектр ИИ-применений, но позволяют объективно оценить прогресс архитектур и ПО.
Mixtral 8x7B - Offline/Server
TensorRT 10.8, CUDA 12.8
8x NVIDIA B200 180 GB (1.000 W)
128148.0XX
126845.0XX
62629.60XX
61802.00XX
52724.40XX
53299.30XX
токены/с
Больше - лучше
Одна из ключевых новаций MLPerf Inference 5.0 — включение в тестовый набор модели Mixtral 8x7B, построенной по архитектуре MoE (Mixture of Experts). Напомним, что модели MoE объединяют несколько нейросетей-экспертов, а специальная gating-сеть динамически определяет, какой «эксперт» наиболее релевантен для текущего входа пользователя. Такой подход позволяет повысить эффективность инференса за счёт активации лишь части параметров модели, что важно при работе с крупными LLM.
В MLPerf 5.0 число представленных решений для MoE-бенчмарка ограничено. Все актуальные результаты получены на оборудовании NVIDIA — ускорителях H100, H200 и B200. Отсутствие данных от AMD и Intel не позволяет провести полноценное сравнение на уровне архитектур.
Llama 3.1 405B - Offline/Server
TensorRT 10.8, CUDA 12.8
13886.40XX
8850.10XX
8x NVIDIA B200 180 GB (1.00 W)
1525.29XX
845.82XX
801.91XX
522.12XX
559.21XX
291.49XX
397.31XX
277.13XX
токены/с
Больше - лучше
При инференсе масштабной модели Llama 3.1 (405B параметров) особенно ярко проявляется влияние масштабируемости аппаратной платформы. Между поколениями H100, H200 и B200 можно наблюдать линейный рост производительности, но ключевым становится не столько абсолютная пропускная способность, сколько требуемая конфигурация системы для ее достижения — ведь именно это определяет стоимость и эффективность развертывания. В этом контексте наилучшие показатели продемонстрировала конфигурация GB200-NVL72 — флагманская платформа NVIDIA для hyperscale-нагрузок. Сравнение с системами AMD Instinct в этом тесте, к сожалению, отсутствует.
Рынок ИИ-инфраструктуры всё активнее смещается в сторону задач инференса, особенно на фоне бурного роста использования LLM. Тем не менее, потребность в ресурсах для обучения остаётся высокой, особенно с появлением новых моделей и обучающих датасетов. Архитектура Blackwell от NVIDIA ориентирована преимущественно на инференс, и результаты B200 подтверждают это: высокая энергоэффективность, масштабируемость, поддержка HBM3E и продвинутые возможности управления тепловым пакетом делают его безусловным лидером. AMD, по крайней мере в рамках MLPerf 5.0, пока не может предложить сопоставимую альтернативу и во втором полугодии 2025 года будет вынуждена активнее конкурировать с Blackwell-решениями.
TPU v6e от Google остаётся замкнутым решением: TPU используется исключительно внутри дата-центров Google, хотя и доступен внешним клиентам через облачные сервисы. Однако универсального применения у TPU нет — их эффективность напрямую зависит от характера целевой задачи, а потому сфера их применения остаётся нишевой.
Полные данные и отчёты MLPerf Inference 5.0 доступны на официальном сайте MLCommons.