MLCommons опубликовали новую порцию бенчмарков из сектора инференса. MLCommons – консорциум различных производителей, целью которого является предоставление независимых и сопоставимых бенчмарков для оборудования центров обработки данных. Условия тестирования четко оговорены и снабжены необходимыми ограничениями. Участники проводят тестирование на основе этих спецификаций, но все остальные участники могут проверить эти результаты на этапе Review Phase, так что никаких манипуляций здесь быть не может.
По сравнению с собственными тестами производителей, результаты MLCommons дают более достоверную базу для сравнения. В закрытой части тестировании (более строгие спецификации бенчмарков) практически отсутствуют оптимизации под конкретного производителя – например, в виде предварительного обучения на используемых данных. В открытой части производители аппаратного и программного обеспечения могут вносить дополнительные оптимизации.
Прежде чем мы подробно рассмотрим результаты и, в частности, сфокусируемся на новых ускорителях, вот ссылка на бенчмарки MLPerf Inference 4.1.
По результатам еще раз видно, что даже при использовании идентичных ускорителей производители могут увеличивать вычислительную мощность на двузначные проценты. В частности, это хорошо видно по результатам, представленными NVIDIA, поскольку компания стабильно улучшала производительность в разных итерациях Hopper. Одни только программные оптимизации позволяют увеличить производительность до 30% за несколько месяцев.
Еще одним аспектом MLPerf Inference 4.1 стало расширение бенчмарков за счет добавления модели MoE (Mixture of Experts) Mixtral 8x7B. MoE - это модели, в которых используют несколько ИИ, а для принятия решения о том, какой ИИ лучше всего подходит для пользовательского запроса, прибегают к помощи называемой сети "Gating Network". MoE позволяют объединить сильные сторон отдельных ИИ.
Mixtral 8x7B - Offline/Server
TensorRT 9.3.0, CUDA 12.2
59022.30XX
57177.20XX
51269.00XX
50099.50XX
8063.02XX
7450.72XX
токены/с
Больше - лучше
В бенчмарке MoE представили не так много ускорителей. Основное внимание уделяется ускорителям NVIDIA в виде GPU H100, H200 и GH200 – последний только в простой версии. Немного жаль, что мы не получили сравнительных данных от AMD или Intel, например.
Разница в производительности между восемью ускорителями H100 и H200 не так велика, как можно было бы ожидать. Однако MoE все еще находятся на очень ранней стадии развития. В частности, программное обеспечение будут продолжать оптимизировать, чтобы справиться с поставленными задачами. Кроме того, растут и требования к аппаратному обеспечению. С графическим процессором Blackwell NVIDIA, несомненно, еще больше укрепит свои позиции в бенчмарке MoE.
Instinct MI300X против H200
Впервые AMD представила некоторые результаты для ускорителя Instinct MI300X. Ранее насчет собственных бенчмарков NVIDIA были некоторые сомнения. Теперь у нас есть новые данные, сравнивающие Instinct MI300X с текущими решениями NVIDIA H100 и H200.
Llama2 70B - Offline/Server
vLLM 0.4.3+rocm614, PyTorch 2.3.0, ROCm 6.1.2 (AMD), TensorRT 10.2.0, CUDA 12.4 (NVIDIA)
8x NVIDIA H200 141 GB CTS (1.000 W)
34864.20XX
32789.70XX
8x AMD Instinct MI300X 192 GB (750 W)
23514.80XX
21028.20XX
1x NVIDIA H200 141 GB CTS (1.000 W)
4487.88XX
4202.30XX
1x AMD Instinct MI300X 192 GB (750 W)
3062.72XX
2520.27XX
токены/с
Больше - лучше
Однако в сравнительных данных NVIDIA привела только систему охлаждения Custom Thermal Solution (CTS), которая может отводить TDP до 1.000 Вт, в то время как Instinct MI300X от AMD ограничен Total Board Power (TBP) в 750 Вт. Что также следует учитывать при сравнении данных. В конечном итоге ускоритель H200 при мощности 1000 Вт обеспечивает примерно на 50% более высокую производительность для инференса Llama2 с 70 миллиардами параметров по сравнению с Instinct MI300X. Хотя решение AMD предлагает 192 ГБ памяти HBM3, она вряд ли дает какой-либо выигрыш по сравнению с 141 ГБ в ускорителе H200.
Оба ускорителя хорошо масштабируются по производительности в ожидаемом диапазоне от одного до восьми, но NVIDIA здесь тоже выходит вперед.
B200 против H200, GH200 и Instinct MI300X
NVIDIA представила первые результаты ускорителя B200 на базе архитектуры Blackwell, пусть и в предварительном виде. Мы получили первый независимый взгляд на вычислительную производительность нового поколения ускорителей NVIDIA за пределами фирменных бенчмарков производителя.
Llama2 70B - Offline/Server
vLLM 0.4.3+rocm614, PyTorch 2.3.0, ROCm 6.1.2 (AMD), TensorRT 10.2.0, CUDA 12.4 (NVIDIA)
1x NVIDIA B200 180 GB (1.000 W)
11264.40XX
10755.60XX
1x NVIDIA H200 141 GB CTS (1.000 W)
4487.88XX
4202.30XX
1x NVIDIA GH200 144 GB (1.000 W)
4067.52XX
3883.67XX
1x AMD Instinct MI300X 192 GB (750 W)
3062.72XX
2520.27XX
токены/с
Больше - лучше
И здесь для сравнения мы можем использовать только предшественника H200 CTS. К сожалению, NVIDIA не предоставляет никакой информации о TDP варианта B200. Скорее всего, он работает в диапазоне мощности от 700 до 1 000 Вт. По результатам бенчмарка становится ясно, что ускоритель NVIDIA B200 опережает не только конкурентов, но и своего предшественника. Тем не менее, были представлены только результаты инференса Llama2 с 70 миллиардами параметров. В связи с этим мы можем сравнивать производительность только для этой среды. То же самое относится и к результатам Instinct MI300X, где AMD также сосредоточилась исключительно на инференсе Llama2.
Инференс на CPU: Emerald Rapids против Granite Rapids
В следующем квартале Intel расширит линейку Xeon 6, включив в нее модели только с производительными ядрами, также известные как Granite Rapids. Первые результаты новых процессоров можно найти в бенчмарках, хотя Intel не предоставляет никакой информации о точной модели CPU. На данный момент мы можем сравнить результаты предшественника Emerald Rapids для инференса на CPU.
GPT-J - Offline/Server
PyTorch
2695.15XX
2159.58XX
498.32XX
217.47XX
2x Intel Platinum 8592+ (Emerald Rapids)
251.30XX
113.74XX
токены/с
Больше - лучше
3D-Unet - Offline
PyTorch
6.74XX
3.29XX
2x Intel Platinum 8592+ (Emerald Rapids)
1.93XX
токены/с
Больше - лучше
Xeon Platinum 8592+, выбранный Intel для предыдущего поколения, имеет 64 ядра. Неизвестно, сколько ядер работало в варианте Xeon на базе Granite Ridge. Возможная топовая модель из серии Xeon 6700P будет иметь до 86 ядер, а серия Xeon 6900P - до 128 ядер. Поскольку серия Xeon 6900P появится в продаже с третьего квартала, то, скорее всего, использовали модель этого типа с количеством ядер до 128.
Учитывая, что между Emerald Rapids и Granite Rapids количество ядер удваивается, удвоение производительности уже не так впечатляет. Мы также добавили на диаграмму результат ускорителя Grace Hopper от NVIDIA (GH200) для лучшего сравнения, чтобы было понятнее, о какой разнице в производительности между инференсом на CPU и специализированным ускорителем ИИ идет речь. Однако стоит отметить, что процессоры Intel могут справиться и с другими рабочими нагрузками, в то время как GH200 предназначен для специализированных вычислений HPC и ИИ. Впрочем, если ваша область применения ограничивается инференсом, то лучше использовать чистый ИИ-ускоритель.
Google TPU v6e
Первые данные есть и о TPU v6e от Google. Его представили на Google I/O весной. TPU v6e, также известный как Trillium, в 5,7 раза быстрее, чем TPU v5e, и на 67% эффективнее.
Stable Diffusion XL - Offline/Server
Flax
5.44XX
4.49XX
2.31XX
2.02XX
1.75XX
1.55XX
токены/с
Больше - лучше
В предварительном сравнении в бенчмарке Stable Diffusion XL TPU v6e достигает в три раза большей производительности, чем его предшественник TPU v5e. Однако в теории вычислительная производительность INT8 увеличивается с 394 TOPS до 1.852 TOPS. У Google еще есть большой потенциал, который можно задействовать после оптимизаций. Все же речь идет о предварительном сравнении на аппаратном обеспечении, которое еще не вышло в финальной версии и пока недоступно в облаке.
В настоящее время, похоже, действительно существует большая потребность в производительности инференса. Однако, поскольку новые модели постоянно разрабатываются и совершенствуются, спрос на ускорители для тренировки и соответствующие мощности остается высоким. В Blackwell NVIDIA фокусируется в первую очередь на инференсе. Первые результаты ускорителя B200 выглядят многообещающе. AMD едва поспевает, по крайней мере, в бенчмарках MLPerf, и с первого квартала 2025 года ей придется все больше конкурировать с Blackwell. С помощью TPU Google создала собственное решение, которое использует только в своих центрах обработки данных, но также предлагает облачным клиентам. Однако решающим фактором, определяющим возможность использования TPU, являются соответствующие приложения.
С полными результатами MLPerf Inference 4.1 можно ознакомиться непосредственно на сайте MLCommons.