La formación y optimización de modelos lingüísticos a gran escala (LLM) son desafíos clave en el campo de la inteligencia artificial. Los métodos de capacitación eficientes no solo deben garantizar el rendimiento del modelo, sino también garantizar que sea coherente con los valores humanos. El aprendizaje por refuerzo con retroalimentación humana (RLHF), como método de formación LLM eficaz, se ha utilizado ampliamente en los últimos años, pero aún es necesario mejorar su eficiencia y escalabilidad. Para ello, ByteDance Doubao Big Model Team ha abierto un marco RLHF llamado HybridFlow, cuyo objetivo es resolver las limitaciones del marco RLHF tradicional y aportar nuevos avances a la formación LLM.
RLHF generalmente consta de tres etapas: primero, el modelo de actor genera texto de acuerdo con las indicaciones de entrada, luego el modelo crítico, el modelo de referencia y el modelo de recompensa evalúan el texto generado y finalmente calculan el valor correspondiente, la probabilidad de referencia y el valor de recompensa; Los resultados de la evaluación se utilizan para entrenar el modelo de actor para generar texto que sea más consistente con las preferencias humanas. Los marcos RLHF tradicionales suelen adoptar un único controlador para gestionar todo el flujo de datos, pero esto es ineficiente para LLM que requiere computación distribuida.
El marco HybridFlow combina de manera innovadora modos de controlador único y de controlador múltiple y desacopla cálculos complejos y dependencias de datos a través de un diseño de API en capas para lograr una representación flexible y una ejecución eficiente de los flujos de datos RLHF.
Las ventajas de HybridFlow se reflejan principalmente en los tres aspectos siguientes:
Soporte flexible para múltiples algoritmos y modelos RLHF: HybridFlow proporciona una API modular para que los usuarios puedan implementar y ampliar fácilmente varios algoritmos RLHF, como PPO, ReMax y Safe-RLHF.
Reorganización eficiente del peso del modelo: el componente 3D-HybridEngine admite la reorganización eficiente del peso del modelo de los modelos de actores durante las etapas de entrenamiento y generación, minimizando la redundancia de memoria y la sobrecarga de comunicación.
Implementación automatizada de modelos y selección de estrategias paralelas: el componente Auto Mapping puede asignar automáticamente modelos a diferentes dispositivos según la carga del modelo y las dependencias de datos, y seleccionar la mejor estrategia paralela, simplificando así el proceso de implementación del modelo y mejorando la eficiencia de la capacitación.
Los resultados experimentales muestran que el rendimiento de HybridFlow mejora significativamente cuando se ejecutan varios algoritmos RLHF, hasta 20,57 veces. El código abierto de HybridFlow proporcionará una poderosa herramienta para la investigación y el desarrollo de RLHF y promoverá el desarrollo de la futura tecnología LLM.
Dirección del artículo: https://arxiv.org/pdf/2409.19256
El editor de Downcodes concluyó: El código abierto del marco HybridFlow proporciona nuevas ideas y herramientas para el entrenamiento de modelos de lenguaje a gran escala. Se espera que su eficiencia y flexibilidad promuevan un mayor desarrollo de la tecnología LLM y merezcan atención e investigación en profundidad. . Esperamos ver más aplicaciones innovadoras basadas en HybridFlow en el futuro.