Les grands modèles de langage (LLM) sont confrontés à des défis de raisonnement complexe, et un cadre open source innovant appelé OpenR a émergé. Développé conjointement par des chercheurs de plusieurs universités, dont l'University College London, OpenR améliore considérablement les capacités de raisonnement des LLM en combinant le calcul au moment du test, l'apprentissage par renforcement et la supervision des processus. Il reproduit non seulement les capacités de raisonnement des modèles avancés, mais réalise également des percées sur cette base, fournissant de nouvelles idées pour résoudre les lacunes des LLM en mathématiques, en programmation et en problèmes scientifiques. L'éditeur de Downcodes vous donnera une compréhension approfondie de la conception unique et des excellentes performances du framework OpenR.
Un framework open source innovant appelé OpenR a récemment été lancé, visant à résoudre les lacunes des grands modèles de langage (LLM) dans les tâches de raisonnement complexes. Le cadre, développé conjointement par des chercheurs de l'University College London, de l'Université de Liverpool, de l'Université Jiao Tong de Shanghai, de l'Université des sciences et technologies de Hong Kong (Guangzhou) et de l'Université Westlake, ouvre de nouvelles voies pour améliorer les capacités de raisonnement des LLM en combinant calcul au moment des tests, apprentissage par renforcement et supervision des processus.
Bien que les LLM aient fait des progrès significatifs dans la génération de langages, ils sont toujours confrontés à des défis dans la gestion de tâches complexes telles que les mathématiques, la programmation et les problèmes scientifiques. L'émergence d'OpenR vise à combler cette lacune et à étendre les capacités des LLM de la simple génération de texte à des domaines de raisonnement plus avancés.
La conception d'OpenR s'inspire en partie du modèle o1 d'OpenAI, mais son objectif est plus ambitieux : non seulement reproduire les capacités de raisonnement des modèles de langage avancés, mais également réaliser des percées sur cette base. En tant que première solution open source à fournir une prise en charge d'un raisonnement aussi complexe, OpenR se concentre sur l'acquisition de données, les modèles de récompense de processus et les méthodes de raisonnement efficaces, dans le but d'accélérer le développement de modèles de langage à grande échelle axés sur le raisonnement.
Remarque sur la source de l'image : l'image est générée par l'IA et l'image est autorisée par le fournisseur de services Midjourney
La structure de base du cadre s'articule autour de l'augmentation des données, de l'apprentissage des politiques et des conseils de raisonnement associés à une exploration multi-voies. OpenR utilise le processus de décision de Markov (MDP) pour modéliser les tâches de raisonnement, décomposant le processus de raisonnement complexe en une série d'étapes qui peuvent être évaluées et optimisées. Cette méthode non seulement cultive directement les capacités de raisonnement, mais explore également plusieurs voies de raisonnement à chaque étape, améliorant considérablement la robustesse du processus de raisonnement.
Une autre caractéristique clé du cadre est le modèle de récompense de processus (PRM), qui fournit un retour détaillé pour les étapes de raisonnement intermédiaires, permettant au modèle d'ajuster les décisions plus précisément plutôt que de s'appuyer uniquement sur des jugements sur le résultat final. Ce guidage fin améliore considérablement l’efficacité d’apprentissage du modèle.
Lors de tests réels, OpenR a démontré des performances impressionnantes. En prenant l'ensemble de données MATH comme référence, la précision d'inférence d'OpenR est environ 10 % supérieure à celle des méthodes traditionnelles. L'étude a également révélé que les méthodes d'exploration multi-chemins telles que Best-of-N et Beam Search sont nettement meilleures que les simples techniques de vote majoritaire, en particulier lorsque les ressources informatiques sont limitées.
Les technologies d'apprentissage par renforcement d'OpenR, en particulier les méthodes qui utilisent le PRM, fonctionnent bien dans les scénarios d'apprentissage de politiques en ligne et favorisent l'amélioration continue des capacités de raisonnement des LLM. Ce résultat montre que grâce à des stratégies d’apprentissage soigneusement conçues, les LLM ont le potentiel de réaliser des progrès révolutionnaires dans des tâches de raisonnement complexes.
En tant que plateforme open source, OpenR fournit aux chercheurs et aux développeurs des ressources précieuses pour travailler ensemble afin de faire progresser les capacités de raisonnement des modèles de langage. Il fournit non seulement une voie de mise à niveau pour les LLM actuels, mais ouvre également la voie à des systèmes d'IA plus intelligents et plus capables de raisonner à l'avenir.
À l’avenir, l’équipe OpenR prévoit d’étendre davantage les fonctionnalités du framework pour couvrir un plus large éventail de types de tâches d’inférence et de continuer à optimiser son processus d’inférence. Cet effort devrait apporter une contribution importante à l’objectif à long terme d’agents d’IA raisonnants auto-améliorés.
Adresse du projet : https://github.com/facebook/openr
Dans l’ensemble, l’émergence du framework OpenR offre de nouvelles possibilités de percées dans les grands modèles de langage dans le domaine du raisonnement complexe. Sa fonctionnalité open source facilite également la participation d’un plus grand nombre de chercheurs et de développeurs pour promouvoir conjointement les progrès de la technologie de l’intelligence artificielle. Nous espérons qu’OpenR obtiendra des résultats plus significatifs à l’avenir et contribuera à la création de systèmes d’IA plus intelligents.