Обучение и оптимизация крупномасштабных языковых моделей (LLM) являются ключевыми задачами в области искусственного интеллекта. Эффективные методы обучения должны не только обеспечивать работоспособность модели, но и обеспечивать ее соответствие человеческим ценностям. Обучение с подкреплением и обратной связью с человеком (RLHF) как эффективный метод обучения LLM широко используется в последние годы, но его эффективность и масштабируемость все еще нуждаются в повышении. С этой целью команда Big Model ByteDance Doubao открыла исходный код платформы RLHF под названием HybridFlow, цель которой — устранить ограничения традиционной структуры RLHF и внести новые прорывы в обучение LLM.
RLHF обычно состоит из трех этапов: сначала модель актера генерирует текст в соответствии с входными подсказками, затем модель критика, эталонная модель и модель вознаграждения оценивают сгенерированный текст и, наконец, вычисляют соответствующее значение, эталонную вероятность и значение вознаграждения; результаты оценки используются для обучения модели актера генерированию текста, более соответствующего предпочтениям человека. Традиционные структуры RLHF обычно используют один контроллер для управления всем потоком данных, но это неэффективно для LLM, требующего распределенных вычислений.
Платформа HybridFlow инновационным образом сочетает в себе режимы с одним и несколькими контроллерами и отделяет сложные вычисления и зависимости данных посредством многоуровневого дизайна API для достижения гибкого представления и эффективного выполнения потоков данных RLHF.
Преимущества HybridFlow в основном отражаются в следующих трех аспектах:
Гибкая поддержка нескольких алгоритмов и моделей RLHF. HybridFlow предоставляет модульный API, позволяющий пользователям легко реализовывать и расширять различные алгоритмы RLHF, такие как PPO, ReMax и Safe-RLHF.
Эффективная реорганизация веса модели. Компонент 3D-HybridEngine поддерживает эффективную реорганизацию веса модели актеров на этапах обучения и генерации, сводя к минимуму избыточность памяти и накладные расходы на связь.
Автоматическое развертывание модели и выбор параллельной стратегии. Компонент автоматического сопоставления может автоматически сопоставлять модели с различными устройствами на основе нагрузки модели и зависимостей данных, а также выбирать лучшую параллельную стратегию, тем самым упрощая процесс развертывания модели и повышая эффективность обучения.
Результаты экспериментов показывают, что пропускная способность HybridFlow значительно увеличивается при выполнении различных алгоритмов RLHF — до 20,57 раз. Открытый исходный код HybridFlow станет мощным инструментом для исследований и разработок RLHF и будет способствовать развитию будущих технологий LLM.
Адрес статьи: https://arxiv.org/pdf/2409.19256.
Редактор Downcodes заключил: «Открытый исходный код платформы HybridFlow предоставляет новые идеи и инструменты для обучения крупномасштабных языковых моделей. Ожидается, что ее эффективность и гибкость будут способствовать дальнейшему развитию технологии LLM и заслуживают внимания и углубленного исследования». . Мы с нетерпением ждем возможности увидеть в будущем больше инновационных приложений на основе HybridFlow.