NVIDIA быстро выпустила графические процессоры GB300 и B300, добившись значительного улучшения производительности всего через полгода после выпуска GB200 и B200, особенно в моделях вывода. Это не только простое обновление оборудования, но и представляет собой стратегическую корректировку стратегии NVIDIA в области ускорения искусственного интеллекта, которая окажет глубокое влияние на отрасль. Суть этого обновления заключается в огромном скачке в производительности вывода, а также в оптимизации памяти и архитектуры, что напрямую повлияет на эффективность и стоимость больших языковых моделей.
Всего через 6 месяцев после выпуска GB200 и B200 Nvidia снова выпустила новые графические процессоры — GB300 и B300. Это может показаться небольшим обновлением, но на самом деле оно содержит огромные изменения, особенно значительное улучшение производительности модели вывода, которое окажет глубокое влияние на всю отрасль.
B300/GB300: огромный скачок в производительности вывода
Графический процессор B300 использует технологический узел TSMC 4NP и оптимизирован для вычислительных чипов. Благодаря этому производительность B300 на FLOPS на 50% выше, чем у B200. Частично улучшение производительности связано с увеличением TDP. TDP GB300 и B300HGX достигает 1,4 кВт и 1,2 кВт соответственно (GB200 и B200 — 1,2 кВт и 1 кВт соответственно). Оставшийся прирост производительности достигается за счет архитектурных усовершенствований и оптимизаций на уровне системы, таких как динамическое распределение мощности между ЦП и графическим процессором.
Помимо увеличения FLOPS, память также была обновлена до 12-Hi HBM3E, а емкость HBM каждого графического процессора увеличена до 288 ГБ. Однако скорость выводов остается неизменной, поэтому пропускная способность памяти на каждый графический процессор по-прежнему составляет 8 ТБ/с. Стоит отметить, что Samsung не удалось войти в цепочку поставок GB200 или GB300.
Кроме того, Nvidia также внесла коррективы в ценообразование. Это в определенной степени повлияет на размер прибыли продуктов Blackwell, но, что более важно, улучшение производительности B300/GB300 будет главным образом отражено в модели вывода.
Специально для моделей вывода
Улучшения памяти имеют решающее значение для обучения вывода LLM в стиле OpenAI O3, поскольку длинные последовательности увеличивают KVCache, ограничивая критический размер пакета и задержку. Обновление с H100 до H200 (в основном увеличение памяти) принесло улучшения в следующих двух аспектах:
Более высокая пропускная способность памяти (4,8 ТБ/с на H200 и 3,35 ТБ/с на H100) привела к общему улучшению интерактивности на 43 % при всех сопоставимых размерах пакетов.
Поскольку H200 использует больший размер пакета, чем H100, количество токенов, генерируемых в секунду, увеличивается в 3 раза, а стоимость снижается примерно в 3 раза. Эта разница в основном связана с тем, что KVCache ограничивает общий размер пакета.
Улучшение производительности при увеличении объема памяти огромно. Разница в производительности и экономике между двумя графическими процессорами намного больше, чем предполагают их характеристики:
Пользовательский опыт работы с моделями вывода может быть плохим из-за значительной задержки между запросами и ответами. Если время вывода можно значительно ускорить, готовность пользователей использовать и платить увеличится.
Трехкратное улучшение производительности оборудования за счет обновлений памяти среднего поколения ошеломляет и намного быстрее, чем закон Мура, закон Хуанга или любое другое улучшение оборудования, которое мы видели.
В целом, выпуск NVIDIA B300/GB300 — это не только еще один скачок в технологии графических процессоров, но и мощное продвижение применения моделей вывода искусственного интеллекта. Это значительно улучшит взаимодействие с пользователем и сократит затраты, что приведет к развитию индустрии искусственного интеллекта. выйти на новый этап развития.