L'éditeur de Downcodes a appris que l'équipe du Shanghai AI Lab avait open source le projet LLaMA version o1. C'est une nouvelle passionnante ! Ce projet vise à reproduire l’o1 d’OpenAI, un artefact mathématique de résolution d’énigmes, et a réalisé des progrès significatifs. L'équipe a habilement utilisé des technologies avancées telles que la recherche arborescente de Monte Carlo et l'apprentissage par renforcement pour surpasser de nombreuses solutions fermées dans le test de référence AIME2024, démontrant ainsi une forte force technique et un esprit open source. Le projet open source contient des ensembles de données, des modèles et du code de formation pré-entraînés, offrant aux développeurs de précieuses ressources d'apprentissage.
Bien avant la sortie de la série o1 d'OpenAI, l'équipe du Shanghai AI Lab a commencé à explorer l'utilisation de la recherche arborescente de Monte Carlo pour améliorer les capacités mathématiques des grands modèles. Après la sortie de o1, l'équipe a encore amélioré l'algorithme, en se concentrant sur les problèmes de l'Olympiade mathématique, et l'a développé en tant que version open source du projet OpenAI Strawberry.
Afin d'améliorer les performances du modèle LLaMA sur les problèmes de l'Olympiade mathématique, l'équipe a adopté une stratégie d'optimisation par paires, qui ne donne pas directement le score absolu de la réponse, mais compare les mérites relatifs des deux réponses. Grâce à cette approche, ils ont obtenu des améliorations significatives par rapport au benchmark le plus difficile AIME2024. Parmi les 30 questions du test, le modèle optimisé a répondu correctement à 8 questions, tandis que le modèle original LLaMA-3.1-8B-Instruct n'a répondu correctement qu'à 2 questions. Cette réalisation dépasse les autres solutions commerciales à code source fermé, à l'exception de o1-preview et o1-mini.
Fin octobre, l'équipe a annoncé avoir réalisé des progrès significatifs dans la reproduction d'OpenAI o1 basé sur l'architecture AlphaGo Zero, permettant au modèle d'acquérir des capacités de réflexion avancées en interagissant avec l'arbre de recherche pendant le processus d'apprentissage sans annotation manuelle. En moins d’une semaine, le projet était open source.
Actuellement, le contenu open source de LLaMA version o1 comprend : des ensembles de données de pré-formation, des modèles de pré-formation et un code de formation d'apprentissage par renforcement. Parmi eux, l'ensemble de données « OpenLongCoT-Pretrain » contient plus de 100 000 données sur une longue chaîne de pensée. Chaque élément de données contient un processus de raisonnement mathématique complet, comprenant le contenu de la réflexion, les résultats de la notation, la description du problème, les coordonnées graphiques, le processus de calcul et la conclusion. dérivation. Des liens de raisonnement complets, ainsi que le contenu de critique et de vérification de chaque étape de raisonnement, fournissent une évaluation et des conseils pour le processus de raisonnement. Après une pré-formation continue sur cet ensemble de données, le modèle peut lire et générer le long processus de chaîne de pensée comme o1.
Bien que le projet s'appelle LLaMA-O1, le modèle de pré-formation actuellement officiellement proposé est basé sur Gemma2 de Google. Sur la base du modèle pré-entraîné, les développeurs peuvent continuer à effectuer une formation d'apprentissage par renforcement. Le processus de formation consiste à : utiliser une recherche arborescente de Monte Carlo pour effectuer une lecture automatique afin de générer une expérience ; stocker une expérience dans le tampon de lecture d'expérience prioritaire ; échantillonner des données de lots à partir du tampon pour mettre à jour des paramètres de modèle et une priorité d'expérience ; Certaines technologies clés sont également utilisées dans le code de formation, notamment l'utilisation de LoRA pour un réglage fin efficace des paramètres, l'utilisation de l'algorithme PPO comme méthode d'optimisation stratégique, la mise en œuvre de l'algorithme GAE pour calculer la fonction d'avantage et l'utilisation de la lecture d'expérience prioritaire pour améliorer la formation. efficacité.
Il convient de noter que le code LLaMA-O1 a été publié sous un compte GitHub appelé SimpleBerry. Le compte n'a pas d'introduction particulière et semble relativement mystérieux. D'après d'autres comptes et informations sur le site officiel liés à SimpleBerry, on peut seulement voir que sa nature est un laboratoire de recherche, mais aucune autre information sur l'orientation de la recherche n'est divulguée.
En plus de LLaMA-O1, un autre projet de réplique o1 avec des progrès publics est O1-Journey de l'équipe de l'Université Jiao Tong de Shanghai. L’équipe a publié son premier rapport d’étape début octobre, présentant le paradigme innovant Journey Learning et le premier modèle à intégrer avec succès la recherche et l’apprentissage dans le raisonnement mathématique. L'équipe de développement principale d'O1-Journey est principalement composée d'étudiants juniors et seniors de premier cycle de l'Université Jiao Tong de Shanghai, ainsi que de doctorants de première année du Laboratoire GAIR (Laboratoire de recherche sur l'intelligence artificielle générative) de l'Université Jiao Tong de Shanghai. Parmi eux, Liu Pengfei et Yao Ban, professeurs agrégés de l'Université Jiao Tong de Shanghai et lauréat du Sloan Award, Li Yuanzhi, etc.
Adresse papier : https://arxiv.org/pdf/2410.02884
https://arxiv.org/pdf/2406.07394
L'open source du projet LLaMA version o1 a apporté une nouvelle vitalité au domaine de la résolution de problèmes mathématiques en IA et a également fourni aux développeurs de précieuses ressources d'apprentissage et de recherche. Nous attendons avec impatience que d’autres projets open source similaires apparaissent à l’avenir pour promouvoir le développement continu du domaine de l’intelligence artificielle !