Недавно компания Apple совершила крупный прорыв в скорости генерации больших языковых моделей (LLM). Она в сотрудничестве с NVIDIA использовала технологию Recurrent Drafter (ReDrafter) с открытым исходным кодом, чтобы почти утроить скорость генерации. ReDrafter использует метод спекулятивного декодирования для значительного повышения эффективности обучения модели и интегрирован с платформой ускорения вывода NVIDIA TensorRT-LLM для дальнейшего снижения затрат на использование и задержки. Это сотрудничество не только повышает эффективность разработки, но и обеспечивает пользователям более быстрое обслуживание, что свидетельствует о решимости и силе Apple продолжать инновации в области искусственного интеллекта. В этой статье будут подробно описаны детали сотрудничества Apple и NVIDIA и преимущества технологии ReDrafter.
Недавно последние исследования Apple в области машинного обучения показали, что благодаря сотрудничеству с NVIDIA им удалось увеличить скорость генерации больших языковых моделей (LLM) почти в три раза. Ключ к этому прогрессу лежит в технологии Apple с открытым исходным кодом «Recurrent Drafter» (ReDrafter), которая использует метод спекулятивного декодирования, который может значительно повысить эффективность обучения модели.
В прошлом процесс создания больших языковых моделей обычно был очень трудоемким и ресурсоемким, и компаниям часто приходилось приобретать большое количество аппаратных устройств, что увеличивало эксплуатационные расходы. Ранее в 2024 году Apple выпустила ReDrafter — технологию, которая сочетает в себе рекурсивные нейронные сети и методы динамического внимания к дереву для быстрого создания и проверки тегов, увеличивая скорость создания тегов в 3,5 раза по сравнению с традиционными методами автоматической регрессии.
На этой неделе Apple также объявила, что их сотрудничество с NVIDIA интегрирует ReDrafter в среду ускорения вывода NVIDIA TensorRT-LLM. Этот шаг позволит разработчикам машинного обучения, использующим графические процессоры NVIDIA, воспользоваться возможностями ускорения ReDrafter в производственных средах. Стоит отметить, что хотя высокопроизводительные серверы с несколькими графическими процессорами обычно стоят дорого, такое сотрудничество может снизить задержку и одновременно уменьшить количество необходимого оборудования, что приведет к более экономичному решению.
В тестах производительности с NVIDIA эффективность генерации с использованием ReDrafter была значительно улучшена: количество генерируемых токенов в секунду увеличилось в 2,7 раза в режиме жадного кодирования. Это означает, что разработчики могут получить больше результатов за меньшее время и предоставить пользователям более быстрое обслуживание.
После подтверждения сотрудничества с NVIDIA Apple также заявила, что рассматривает возможность использования чипа Amazon Trainium2 для повышения эффективности обучения моделей. Ожидается, что эффективность предварительного обучения с использованием Trainium2 будет повышена на 50% по сравнению с существующим оборудованием.
Официальный блог: https://developer.nvidia.com/blog/nvidia-tensorrt-llm-now-supports-recurrent-drafting-for-optimizing-llm-inference/
Основные моменты:
Apple сотрудничает с NVIDIA, чтобы почти утроить скорость создания больших языковых моделей.
Технология с открытым исходным кодом ReDrafter в сочетании с рекуррентными нейронными сетями значительно повышает эффективность обучения модели.
Такое сотрудничество помогает сократить расходы и предоставить более эффективные решения для разработчиков машинного обучения.
В целом сотрудничество Apple и NVIDIA и применение технологии ReDrafter привели к значительному повышению эффективности и снижению затрат на разработку и применение больших языковых моделей. Это не только способствует технологическому прогрессу в области искусственного интеллекта, но и приносит разработчикам и пользователям более удобные и экономичные решения, что указывает на энергичное развитие приложений ИИ в будущем.