La capacitación y la optimización de modelos de idiomas grandes (LLM) son desafíos clave en el campo de la inteligencia artificial. Los métodos de entrenamiento eficientes y la salida del modelo que se ajustan a los valores humanos son cruciales. El aprendizaje de refuerzo y la retroalimentación humana (RLHF) es un método de entrenamiento LLM convencional. Para este propósito, el equipo de modelos Biged Bytedance DoBao abrió el marco RLHF llamado HybridFlow, con el objetivo de resolver estos problemas y aportar nuevas posibilidades a la capacitación de LLM. A través del diseño innovador, este marco mejora la eficiencia y la flexibilidad de la capacitación de LLM.
Big Models (LLM) como GPT y LLAMA ha desencadenado una revolución en el campo de la inteligencia artificial, pero cómo entrenar de manera eficiente estos enormes modelos y hacerlos en línea con los valores humanos sigue siendo un problema difícil.
El aprendizaje de refuerzo y la retroalimentación humana (RLHF) se ha utilizado ampliamente en los últimos años como un importante método de entrenamiento de LLM, pero el marco tradicional de RLHF tiene limitaciones en flexibilidad, eficiencia y escalabilidad.
Para resolver estos problemas, Bytedance Doubao Big Model Team Open Source, el marco RLHF llamado HybridFlow, que trae nuevas posibilidades a la capacitación de LLM.
RLHF generalmente consta de tres etapas:
Primero, el modelo de actor genera texto basado en las indicaciones de entrada;
Finalmente, estos resultados de evaluación se utilizan para capacitar al modelo de actor para generar texto que esté más en línea con las preferencias humanas. Los marcos RLHF tradicionales generalmente usan un solo controlador para administrar todo el flujo de datos, pero esto es ineficiente para los LLM que requieren informática distribuida.
El marco Hybridflow combina innovativamente modos de control único y múltiple y desacopla la computación compleja y las dependencias de datos a través del diseño jerárquico de API, lo que permite la representación flexible y la ejecución eficiente de los flujos de datos RLHF.
Las ventajas del flujo híbrido se reflejan principalmente en los siguientes tres aspectos:
Soporte flexible para una variedad de algoritmos y modelos RLHF: HybridFlow proporciona una API modular, donde los usuarios pueden implementar y extender fácilmente varios algoritmos RLHF, como PPO, RESAX y SAFE-RLHF.
Reorganización eficiente del peso del modelo: el componente 3D-HibridEngine admite modelos de actores para reorganizar eficientemente los pesos del modelo durante las etapas de entrenamiento y generación, minimizando la redundancia de la memoria y la sobrecarga de comunicación.
Implementación automatizada del modelo y selección de políticas paralelas: los componentes de mapeo automático pueden asignar automáticamente modelos a diferentes dispositivos en función de la carga del modelo y las dependencias de datos y seleccionar la mejor política paralela, simplificando así el proceso de implementación del modelo y mejorando la eficiencia de la capacitación.
Los resultados experimentales muestran que el rendimiento del flujo híbrido aumenta significativamente cuando se ejecutan varios algoritmos RLHF, hasta 20.57 veces. El código abierto de Hybridflow proporcionará herramientas poderosas para que la investigación y el desarrollo de RLHF promueva el desarrollo de la tecnología LLM en el futuro.
Dirección en papel: https://arxiv.org/pdf/2409.19256
El código abierto del marco Hybridflow proporciona una forma efectiva de mejorar el proceso de capacitación de LLM. Esperamos que hybridflow juegue un papel más importante en la futura investigación de LLM.