MLPerf Inference 4.1: первые бенчмарки Granite Rapids, B200, TPU v6e, Instinct MI300X и Turin

MLCommons опубликовали новую порцию бенчмарков из сектора инференса. MLCommons – консорциум различных производителей, целью которого является предоставление независимых и сопоставимых бенчмарков для оборудования центров обработки данных. Условия тестирования четко оговорены и снабжены необходимыми ограничениями. Участники проводят тестирование на основе этих спецификаций, но все остальные участники могут проверить эти результаты на этапе Review Phase, так что никаких манипуляций здесь быть не может.

По сравнению с собственными тестами производителей, результаты MLCommons дают более достоверную базу для сравнения. В закрытой части тестировании (более строгие спецификации бенчмарков) практически отсутствуют оптимизации под конкретного производителя – например, в виде предварительного обучения на используемых данных. В открытой части производители аппаратного и программного обеспечения могут вносить дополнительные оптимизации.

Прежде чем мы подробно рассмотрим результаты и, в частности, сфокусируемся на новых ускорителях, вот ссылка на бенчмарки MLPerf Inference 4.1.

По результатам еще раз видно, что даже при использовании идентичных ускорителей производители могут увеличивать вычислительную мощность на двузначные проценты. В частности, это хорошо видно по результатам, представленными NVIDIA, поскольку компания стабильно улучшала производительность в разных итерациях Hopper. Одни только программные оптимизации позволяют увеличить производительность до 30% за несколько месяцев.

Еще одним аспектом MLPerf Inference 4.1 стало расширение бенчмарков за счет добавления модели MoE (Mixture of Experts) Mixtral 8x7B. MoE - это модели, в которых используют несколько ИИ, а для принятия решения о том, какой ИИ лучше всего подходит для пользовательского запроса, прибегают к помощи называемой сети "Gating Network". MoE позволяют объединить сильные сторон отдельных ИИ.

Mixtral 8x7B - Offline/Server

TensorRT 9.3.0, CUDA 12.2

8x NVIDIA H200 141 GB

59022.30XX

57177.20XX

8x NVIDIA H100 80 GB

51269.00XX

50099.50XX

1x NVIDIA GH200 144 GB

8063.02XX

7450.72XX

токены/с

Больше - лучше

В бенчмарке MoE представили не так много ускорителей. Основное внимание уделяется ускорителям NVIDIA в виде GPU H100, H200 и GH200 – последний только в простой версии. Немного жаль, что мы не получили сравнительных данных от AMD или Intel, например.

Разница в производительности между восемью ускорителями H100 и H200 не так велика, как можно было бы ожидать. Однако MoE все еще находятся на очень ранней стадии развития. В частности, программное обеспечение будут продолжать оптимизировать, чтобы справиться с поставленными задачами. Кроме того, растут и требования к аппаратному обеспечению. С графическим процессором Blackwell NVIDIA, несомненно, еще больше укрепит свои позиции в бенчмарке MoE.

Instinct MI300X против H200

Впервые AMD представила некоторые результаты для ускорителя Instinct MI300X. Ранее насчет собственных бенчмарков NVIDIA были некоторые сомнения. Теперь у нас есть новые данные, сравнивающие Instinct MI300X с текущими решениями NVIDIA H100 и H200.

Llama2 70B - Offline/Server

vLLM 0.4.3+rocm614, PyTorch 2.3.0, ROCm 6.1.2 (AMD), TensorRT 10.2.0, CUDA 12.4 (NVIDIA)

8x NVIDIA H200 141 GB CTS (1.000 W)

34864.20XX

32789.70XX

8x AMD Instinct MI300X 192 GB (750 W)

23514.80XX

21028.20XX

1x NVIDIA H200 141 GB CTS (1.000 W)

4487.88XX

4202.30XX

1x AMD Instinct MI300X 192 GB (750 W)

3062.72XX

2520.27XX

токены/с

Больше - лучше

Однако в сравнительных данных NVIDIA привела только систему охлаждения Custom Thermal Solution (CTS), которая может отводить TDP до 1.000 Вт, в то время как Instinct MI300X от AMD ограничен Total Board Power (TBP) в 750 Вт. Что также следует учитывать при сравнении данных. В конечном итоге ускоритель H200 при мощности 1000 Вт обеспечивает примерно на 50% более высокую производительность для инференса Llama2 с 70 миллиардами параметров по сравнению с Instinct MI300X. Хотя решение AMD предлагает 192 ГБ памяти HBM3, она вряд ли дает какой-либо выигрыш по сравнению с 141 ГБ в ускорителе H200.

Оба ускорителя хорошо масштабируются по производительности в ожидаемом диапазоне от одного до восьми, но NVIDIA здесь тоже выходит вперед.

B200 против H200, GH200 и Instinct MI300X

NVIDIA представила первые результаты ускорителя B200 на базе архитектуры Blackwell, пусть и в предварительном виде. Мы получили первый независимый взгляд на вычислительную производительность нового поколения ускорителей NVIDIA за пределами фирменных бенчмарков производителя.

Llama2 70B - Offline/Server

vLLM 0.4.3+rocm614, PyTorch 2.3.0, ROCm 6.1.2 (AMD), TensorRT 10.2.0, CUDA 12.4 (NVIDIA)

1x NVIDIA B200 180 GB (1.000 W)

11264.40XX

10755.60XX

1x NVIDIA H200 141 GB CTS (1.000 W)

4487.88XX

4202.30XX

1x NVIDIA GH200 144 GB (1.000 W)

4067.52XX

3883.67XX

1x AMD Instinct MI300X 192 GB (750 W)

3062.72XX

2520.27XX

токены/с

Больше - лучше

И здесь для сравнения мы можем использовать только предшественника H200 CTS. К сожалению, NVIDIA не предоставляет никакой информации о TDP варианта B200. Скорее всего, он работает в диапазоне мощности от 700 до 1 000 Вт. По результатам бенчмарка становится ясно, что ускоритель NVIDIA B200 опережает не только конкурентов, но и своего предшественника. Тем не менее, были представлены только результаты инференса Llama2 с 70 миллиардами параметров. В связи с этим мы можем сравнивать производительность только для этой среды. То же самое относится и к результатам Instinct MI300X, где AMD также сосредоточилась исключительно на инференсе Llama2.

Инференс на CPU: Emerald Rapids против Granite Rapids

В следующем квартале Intel расширит линейку Xeon 6, включив в нее модели только с производительными ядрами, также известные как Granite Rapids. Первые результаты новых процессоров можно найти в бенчмарках, хотя Intel не предоставляет никакой информации о точной модели CPU. На данный момент мы можем сравнить результаты предшественника Emerald Rapids для инференса на CPU.

GPT-J - Offline/Server

PyTorch

1x NVIDIA GH200

2695.15XX

2159.58XX

2x Intel Granite Rapids

498.32XX

217.47XX

2x Intel Platinum 8592+ (Emerald Rapids)

251.30XX

113.74XX

токены/с

Больше - лучше

3D-Unet - Offline

PyTorch

1x NVIDIA GH200

6.74XX

2x Intel Granite Rapids

3.29XX

2x Intel Platinum 8592+ (Emerald Rapids)

1.93XX

токены/с

Больше - лучше

Xeon Platinum 8592+, выбранный Intel для предыдущего поколения, имеет 64 ядра. Неизвестно, сколько ядер работало в варианте Xeon на базе Granite Ridge. Возможная топовая модель из серии Xeon 6700P будет иметь до 86 ядер, а серия Xeon 6900P - до 128 ядер. Поскольку серия Xeon 6900P появится в продаже с третьего квартала, то, скорее всего, использовали модель этого типа с количеством ядер до 128.

Учитывая, что между Emerald Rapids и Granite Rapids количество ядер удваивается, удвоение производительности уже не так впечатляет. Мы также добавили на диаграмму результат ускорителя Grace Hopper от NVIDIA (GH200) для лучшего сравнения, чтобы было понятнее, о какой разнице в производительности между инференсом на CPU и специализированным ускорителем ИИ идет речь. Однако стоит отметить, что процессоры Intel могут справиться и с другими рабочими нагрузками, в то время как GH200 предназначен для специализированных вычислений HPC и ИИ. Впрочем, если ваша область применения ограничивается инференсом, то лучше использовать чистый ИИ-ускоритель.

Google TPU v6e

Первые данные есть и о TPU v6e от Google. Его представили на Google I/O весной. TPU v6e, также известный как Trillium, в 5,7 раза быстрее, чем TPU v5e, и на 67% эффективнее.

Stable Diffusion XL - Offline/Server

Flax

1x Google TPU v6e

5.44XX

4.49XX

1x NVIDIA GH200:

2.31XX

2.02XX

1x Google TPU v5e

1.75XX

1.55XX

токены/с

Больше - лучше

В предварительном сравнении в бенчмарке Stable Diffusion XL TPU v6e достигает в три раза большей производительности, чем его предшественник TPU v5e. Однако в теории вычислительная производительность INT8 увеличивается с 394 TOPS до 1.852 TOPS. У Google еще есть большой потенциал, который можно задействовать после оптимизаций. Все же речь идет о предварительном сравнении на аппаратном обеспечении, которое еще не вышло в финальной версии и пока недоступно в облаке.

В настоящее время, похоже, действительно существует большая потребность в производительности инференса. Однако, поскольку новые модели постоянно разрабатываются и совершенствуются, спрос на ускорители для тренировки и соответствующие мощности остается высоким. В Blackwell NVIDIA фокусируется в первую очередь на инференсе. Первые результаты ускорителя B200 выглядят многообещающе. AMD едва поспевает, по крайней мере, в бенчмарках MLPerf, и с первого квартала 2025 года ей придется все больше конкурировать с Blackwell. С помощью TPU Google создала собственное решение, которое использует только в своих центрах обработки данных, но также предлагает облачным клиентам. Однако решающим фактором, определяющим возможность использования TPU, являются соответствующие приложения.

С полными результатами MLPerf Inference 4.1 можно ознакомиться непосредственно на сайте MLCommons.