A mais recente série de modelos Tülu3 lançada pelo Allen Institute for Artificial Intelligence (AI2) trouxe avanços impressionantes no campo dos modelos de linguagem de código aberto. O Tülu3 não apenas é comparável em desempenho a modelos de código fechado, como o GPT-4o-mini, mas, mais importante, é totalmente de código aberto e fornece dados de treinamento abrangentes, código, receitas de treinamento e estruturas de avaliação, o que é fundamental para promover a abertura modelos de origem. O desenvolvimento da tecnologia de formação é de importância marcante. Resolve muitos problemas existentes na aplicação prática dos modelos tradicionais de pré-treinamento, como geração de informações prejudiciais e dificuldade em seguir instruções, etc., e traz novas possibilidades de pesquisa e aplicação no campo da inteligência artificial.
No campo da inteligência artificial, a tecnologia pós-treinamento está gradualmente se tornando um meio importante para melhorar o desempenho do modelo. Recentemente, o Allen Institute for Artificial Intelligence (AI2) lançou a série de modelos Tülu3, que é um modelo de linguagem avançada totalmente de código aberto com desempenho comparável a modelos de código fechado, como o GPT-4o-mini. Tülu3 não apenas contém dados de modelo, código e receitas de treinamento, mas também fornece uma estrutura de avaliação, com o objetivo de promover o desenvolvimento de tecnologia pós-treinamento de modelo de código aberto.
Tradicionalmente, os modelos pré-treinados por si só são muitas vezes ineficazes para atender às necessidades práticas de aplicação, podem produzir informações tóxicas ou perigosas e são difíceis de seguir as instruções humanas. Portanto, os estágios pós-treinamento, como o ajuste fino das instruções e o aprendizado por feedback humano, são particularmente importantes. Porém, como otimizar o processo pós-treinamento ainda é um problema técnico, principalmente quando o aprimoramento de uma habilidade do modelo pode afetar outras habilidades.
Para superar este problema, as grandes empresas aumentaram a complexidade dos métodos pós-treinamento, tentando múltiplas rodadas de treinamento e combinando dados artificiais e sintéticos, mas a maioria dos métodos ainda são de código fechado. Em contraste, o lançamento da série Tülu3 rompeu a lacuna de desempenho entre os modelos de código aberto e os modelos de código fechado e trouxe novas ideias de treinamento.
O processo de treinamento do Tülu3 é dividido em quatro etapas: construção de dados, ajuste fino supervisionado, ajuste de preferência e aprendizagem por reforço com recompensas verificáveis.
Primeiro, os pesquisadores concentram-se nas habilidades essenciais do modelo e constroem dados de treinamento combinando dados artificiais com dados sintéticos.
Em segundo lugar, é realizado um ajuste fino supervisionado para garantir que o modelo funcione tão bem quanto outros modelos de última geração em habilidades específicas.
Terceiro, o método de otimização de preferência direta é usado para melhorar ainda mais o desempenho geral do modelo. Finalmente, o método inovador de aprendizagem por reforço de recompensa verificável é introduzido para ajudar o modelo a completar melhor as tarefas com resultados verificáveis.
O modelo Tülu3 é construído com base no Llama3.1 e apresenta excelente desempenho em áreas como raciocínio, matemática, programação e acompanhamento de instruções. Em comparação com outros modelos de código aberto e fechado, os recursos abrangentes do Tülu3 apresentam bom desempenho em vários benchmarks, marcando um grande avanço na tecnologia de treinamento pós-código aberto.
Link do artigo: https://allenai.org/papers/tulu-3-report.pdf
Demonstração: https://playground.allenai.org/
Destaques:
?Tülu3 é um modelo de linguagem de código aberto lançado pela AI2, que possui desempenho comparável a modelos de código fechado como o GPT-4o-mini.
? A tecnologia pós-treinamento é crucial e pode efetivamente melhorar o desempenho do modelo em aplicações práticas.
? O processo de treinamento inovador do Tülu3 é dividido em quatro etapas: construção de dados, ajuste fino supervisionado, ajuste de preferência e aprendizagem por reforço de recompensa verificável.
A natureza de código aberto do Tülu3 permite aos investigadores estudar profundamente os seus métodos de formação e fazer melhorias e inovações nesta base, o que promoverá enormemente o desenvolvimento de modelos de linguagem de código aberto. O seu excelente desempenho em muitos campos também indica que o modelo de código aberto desempenhará um papel mais importante no futuro. Espera-se que Tülu3 possa promover ainda mais a popularização e aplicação da tecnologia de inteligência artificial.