O treinamento e a otimização de modelos de linguagem em larga escala (LLMs) são desafios importantes no campo da inteligência artificial. Métodos de formação eficientes não só precisam de garantir o desempenho do modelo, mas também de garantir que este seja consistente com os valores humanos. A aprendizagem por reforço com feedback humano (RLHF), como método eficaz de treinamento LLM, tem sido amplamente utilizada nos últimos anos, mas sua eficiência e escalabilidade ainda precisam ser melhoradas. Para este propósito, a equipe ByteDance Doubao Big Model abriu o código-fonte de uma estrutura RLHF chamada HybridFlow, que visa resolver as limitações da estrutura RLHF tradicional e trazer novos avanços para o treinamento LLM.
O RLHF geralmente consiste em três estágios: primeiro, o modelo do ator gera o texto de acordo com os prompts de entrada, depois o modelo crítico, o modelo de referência e o modelo de recompensa avaliam o texto gerado e calculam o valor correspondente, a probabilidade de referência e o valor da recompensa; os resultados da avaliação são usados para treinar o modelo do ator para gerar um texto mais consistente com as preferências humanas. As estruturas RLHF tradicionais geralmente adotam um único controlador para gerenciar todo o fluxo de dados, mas isso é ineficiente para LLM que requer computação distribuída.
A estrutura HybridFlow combina de forma inovadora os modos de controlador único e multicontrolador e desacopla cálculos complexos e dependências de dados por meio de design de API em camadas para obter representação flexível e execução eficiente de fluxos de dados RLHF.
As vantagens do HybridFlow refletem-se principalmente nos três aspectos a seguir:
Suporte flexível para vários algoritmos e modelos RLHF: HybridFlow fornece uma API modular para que os usuários possam implementar e estender facilmente vários algoritmos RLHF, como PPO, ReMax e Safe-RLHF.
Reorganização eficiente do peso do modelo: O componente 3D-HybridEngine suporta a reorganização eficiente do peso do modelo de modelos de atores durante os estágios de treinamento e geração, minimizando a redundância de memória e a sobrecarga de comunicação.
Implantação automatizada de modelo e seleção de estratégia paralela: O componente Mapeamento Automático pode mapear automaticamente modelos para diferentes dispositivos com base na carga do modelo e nas dependências de dados, e selecionar a melhor estratégia paralela, simplificando assim o processo de implantação do modelo e melhorando a eficiência do treinamento.
Os resultados experimentais mostram que o rendimento do HybridFlow é significativamente melhorado ao executar vários algoritmos RLHF, até 20,57 vezes. O código aberto do HybridFlow fornecerá uma ferramenta poderosa para pesquisa e desenvolvimento de RLHF e promoverá o desenvolvimento de futuras tecnologias LLM.
Endereço do artigo: https://arxiv.org/pdf/2409.19256
O editor de Downcodes concluiu: O código aberto da estrutura HybridFlow fornece novas ideias e ferramentas para o treinamento de modelos de linguagem em larga escala. Espera-se que sua eficiência e flexibilidade promovam o desenvolvimento da tecnologia LLM e mereçam atenção e pesquisa aprofundada. . Esperamos ver mais aplicações inovadoras baseadas em HybridFlow no futuro.