La formation et l’optimisation de modèles linguistiques à grande échelle (LLM) sont des défis clés dans le domaine de l’intelligence artificielle. Des méthodes de formation efficaces doivent non seulement garantir la performance du modèle, mais également garantir sa cohérence avec les valeurs humaines. L'apprentissage par renforcement avec feedback humain (RLHF), en tant que méthode de formation LLM efficace, a été largement utilisé ces dernières années, mais son efficacité et son évolutivité doivent encore être améliorées. À cette fin, l'équipe ByteDance Doubao Big Model a open source un framework RLHF appelé HybridFlow, qui vise à résoudre les limites du framework RLHF traditionnel et à apporter de nouvelles avancées dans la formation LLM.
RLHF se compose généralement de trois étapes : d'abord, le modèle d'acteur génère du texte en fonction des invites de saisie ; ensuite, le modèle critique, le modèle de référence et le modèle de récompense évaluent le texte généré et calculent enfin la valeur correspondante, la probabilité de référence et la valeur de récompense ; les résultats de l'évaluation sont utilisés pour entraîner le modèle d'acteur à générer un texte plus cohérent avec les préférences humaines. Les frameworks RLHF traditionnels adoptent généralement un seul contrôleur pour gérer l'ensemble du flux de données, mais cela est inefficace pour le LLM qui nécessite une informatique distribuée.
Le framework HybridFlow combine de manière innovante les modes mono-contrôleur et multi-contrôleur et découple les calculs complexes et les dépendances de données grâce à une conception API en couches pour obtenir une représentation flexible et une exécution efficace des flux de données RLHF.
Les avantages d’HybridFlow se reflètent principalement dans les trois aspects suivants :
Prise en charge flexible de plusieurs algorithmes et modèles RLHF : HybridFlow fournit une API modulaire afin que les utilisateurs puissent facilement implémenter et étendre divers algorithmes RLHF, tels que PPO, ReMax et Safe-RLHF.
Réorganisation efficace du poids des modèles : le composant 3D-HybridEngine prend en charge une réorganisation efficace du poids des modèles d'acteurs pendant les étapes de formation et de génération, minimisant ainsi la redondance de la mémoire et les frais de communication.
Déploiement automatisé de modèles et sélection de stratégies parallèles : le composant Auto Mapping peut automatiquement mapper les modèles sur différents appareils en fonction de la charge du modèle et des dépendances des données, et sélectionner la meilleure stratégie parallèle, simplifiant ainsi le processus de déploiement du modèle et améliorant l'efficacité de la formation.
Les résultats expérimentaux montrent que le débit d'HybridFlow est considérablement amélioré lors de l'exécution de divers algorithmes RLHF, jusqu'à 20,57 fois. L'open source d'HybridFlow fournira un outil puissant pour la recherche et le développement du RLHF et favorisera le développement de la future technologie LLM.
Adresse papier : https://arxiv.org/pdf/2409.19256
L'éditeur de Downcodes a conclu : L'open source du framework HybridFlow fournit de nouvelles idées et de nouveaux outils pour la formation de modèles de langage à grande échelle. Son efficacité et sa flexibilité devraient promouvoir le développement ultérieur de la technologie LLM et méritent une attention et des recherches approfondies. . Nous sommes impatients de voir des applications plus innovantes basées sur HybridFlow à l’avenir.