O editor do Downcodes aprendeu que a equipe do Shanghai AI Lab abriu o código-fonte do projeto LLaMA versão o1. Esta é uma notícia emocionante! Este projeto visa reproduzir o o1 da OpenAI, um artefato matemático de resolução de quebra-cabeças, e obteve progressos significativos. A equipe usou habilmente tecnologias avançadas, como pesquisa de árvore de Monte Carlo e aprendizado por reforço, para superar muitas soluções de código fechado no teste de benchmark AIME2024, demonstrando forte força técnica e espírito de código aberto. O projeto de código aberto contém conjuntos de dados, modelos e códigos de treinamento pré-treinados, fornecendo aos desenvolvedores recursos de aprendizagem valiosos.
Muito antes do lançamento da série o1 da OpenAI, a equipe do Shanghai AI Lab começou a explorar o uso da pesquisa em árvore de Monte Carlo para melhorar as capacidades matemáticas de grandes modelos. Após o lançamento do o1, a equipe atualizou ainda mais o algoritmo, concentrando-se nos problemas das Olimpíadas Matemáticas, e desenvolveu-o como uma versão de código aberto do OpenAI Strawberry Project.
Para melhorar o desempenho do modelo LLaMA em problemas de Olimpíadas Matemáticas, a equipe adotou uma estratégia de otimização pareada, que não fornece diretamente a pontuação absoluta da resposta, mas compara os méritos relativos das duas respostas. Com esta abordagem, eles alcançaram melhorias significativas no benchmark AIME2024 mais difícil. Entre as 30 questões do teste, o modelo otimizado acertou 8 questões, enquanto o modelo LLaMA-3.1-8B-Instruct original acertou apenas 2 questões. Essa conquista excede outras soluções comerciais de código fechado, exceto o1-preview e o1-mini.
No final de outubro, a equipe anunciou que havia feito progressos significativos na reprodução do OpenAI o1 baseado na arquitetura AlphaGo Zero, permitindo que o modelo adquirisse capacidades avançadas de pensamento ao interagir com a árvore de pesquisa durante o processo de aprendizagem sem anotação manual. Em menos de uma semana, o projeto foi aberto.
Atualmente, o conteúdo de código aberto da versão o1 do LLaMA inclui: conjuntos de dados de pré-treinamento, modelos de pré-treinamento e código de treinamento de aprendizagem por reforço. Entre eles, o conjunto de dados "OpenLongCoT-Pretrain" contém mais de 100.000 dados de longas cadeias de pensamento. Cada dado contém um processo completo de raciocínio matemático de problemas, incluindo conteúdo de pensamento, resultados de pontuação, descrição do problema, coordenadas gráficas, processo de cálculo e conclusão. derivação. Links completos de raciocínio, bem como conteúdo de crítica e verificação de cada etapa do raciocínio, fornecem avaliação e orientação para o processo de raciocínio. Após o pré-treinamento contínuo neste conjunto de dados, o modelo pode ler e gerar o longo processo de cadeia de pensamento como o1.
Embora o projeto seja denominado LLaMA-O1, o modelo de pré-treinamento fornecido oficialmente atualmente é baseado no Gemma2 do Google. Com base no modelo pré-treinado, os desenvolvedores podem continuar a realizar treinamento de aprendizagem por reforço. O processo de treinamento inclui: usar a pesquisa em árvore de Monte Carlo para realizar a reprodução automática para gerar experiência; armazenar experiência no buffer de reprodução de experiência prioritária do buffer para atualizar os parâmetros do modelo e a prioridade da experiência; Algumas tecnologias-chave também são usadas no código de treinamento, incluindo o uso de LoRA para ajuste eficiente de parâmetros, o uso do algoritmo PPO como método de otimização de estratégia, a implementação do algoritmo GAE para calcular a função de vantagem e o uso de reprodução de experiência prioritária para melhorar o treinamento. eficiência.
É importante notar que o código LLaMA-O1 foi lançado em uma conta GitHub chamada SimpleBerry. A conta não tem introdução especial e parece ser relativamente misteriosa. A partir de outras contas e informações do site oficial relacionadas ao SimpleBerry, só se percebe que sua natureza é um laboratório de pesquisa, mas não são divulgadas mais informações sobre a direção da pesquisa.
Além do LLaMA-O1, outro projeto de réplica o1 com progresso público é o O1-Journey da equipe da Shanghai Jiao Tong University. A equipe divulgou seu primeiro relatório de progresso no início de outubro, apresentando o inovador paradigma Journey Learning e o primeiro modelo a integrar com sucesso a pesquisa e a aprendizagem no raciocínio matemático. A equipe principal de desenvolvimento do O1-Journey é composta principalmente por alunos de graduação júnior e sênior da Universidade Jiao Tong de Xangai, bem como alunos de doutorado do primeiro ano do Laboratório GAIR (Laboratório de Pesquisa de Inteligência Artificial Generativa) da Universidade Jiao Tong de Xangai. incluem Liu Pengfei e Yao Ban, professores associados da Universidade Jiao Tong de Xangai, Li Yuanzhi, etc.
Endereço do artigo: https://arxiv.org/pdf/2410.02884
https://arxiv.org/pdf/2406.07394
O código aberto do projeto LLaMA versão o1 trouxe uma nova vitalidade ao campo da resolução de problemas matemáticos de IA e também forneceu aos desenvolvedores valiosos recursos de aprendizagem e pesquisa. Esperamos que mais projetos de código aberto semelhantes apareçam no futuro para promover o desenvolvimento contínuo do campo da inteligência artificial!