Epoch AI недавно выпустила крупномасштабный симулятор вычислительной мощности для обучения языковой модели. Симулятор предоставляет ценную информацию для исследователей, моделируя стоимость и эффективность обучения GPT-4 в различных аппаратных условиях. Результаты моделирования показывают, что даже при использовании старой видеокарты GTX580 2012 года можно обучать GPT-4, но стоимость будет в десять раз выше, чем у современного оборудования, что подчеркивает важность повышения производительности оборудования для обучения модели ИИ. Симулятор также поддерживает моделирование обучения в нескольких центрах обработки данных, позволяя пользователям настраивать параметры и анализировать различия в производительности различного оборудования и стратегий обучения, обеспечивая важную основу для принятия решений для обучения будущих крупномасштабных моделей ИИ.
Недавно компания Epoch AI, занимающаяся исследованием искусственного интеллекта, выпустила интерактивный симулятор, специально разработанный для моделирования вычислительной мощности, необходимой для обучения больших языковых моделей. Используя этот симулятор, исследователи обнаружили, что, хотя обучение GPT-4 возможно с использованием старых видеокарт 2012 года, таких как GTX580, стоимость будет в десять раз выше, чем у современного оборудования.
Исследования Epoch AI показывают, что количество операций с плавающей запятой (FLOP), необходимых для обучения GPT-4, составляет от 1e25 до 1e26. Для этого исследования симулятор проанализировал эффективность различных видеокарт, особенно при масштабировании модели. Результаты показывают, что по мере роста модели эффективность обычно снижается. В качестве примера возьмем видеокарту H100, выпущенную в последние годы. Она может поддерживать высокую эффективность в течение длительного времени, в то время как эффективность видеокарты V100 падает более явно при более крупных масштабах обучения.
В экспериментах Epoch AI объем памяти видеокарты GTX580 составлял всего 3 ГБ. Эта видеокарта была основным выбором при обучении модели AlexNet в 2012 году. Хотя технологии продвинулись вперед, исследователи полагают, что обучение в таких больших масштабах возможно с использованием более старого оборудования, но необходимые ресурсы и затраты будут непомерно высокими.
Кроме того, симулятор поддерживает комплексное моделирование обучения в нескольких центрах обработки данных. Пользователи могут настраивать такие параметры, как размер центра обработки данных, задержку и пропускную способность соединения, чтобы моделировать тренировки в нескольких местах. Этот инструмент также позволяет анализировать различия в производительности между современными видеокартами (такими как H100 и A100), изучать влияние различных размеров пакетов и обучения нескольких графических процессоров, а также создавать подробные файлы журналов, документирующие выходные данные модели.
Epoch AI заявила, что разработала симулятор, чтобы углубить понимание повышения эффективности оборудования и оценить влияние контроля за экспортом чипов. Учитывая ожидаемое увеличение количества крупномасштабных учебных миссий в этом столетии, особенно важно понимать требования к оборудованию, которые потребуются в будущем.
В целом, это исследование и симулятор Epoch AI представляет собой важную справочную информацию для обучения больших языковых моделей, помогая исследователям лучше понять эффективность оборудования, оптимизировать стратегии обучения и обеспечить более надежное обучение для прогнозирования будущих моделей ИИ.