Le dernier modèle d'OpenAI, o3, a obtenu des résultats impressionnants sur le benchmark ARC-AGI, atteignant 75,7 % dans des conditions informatiques standard et 87,5 % dans la version de calcul élevé. Ce résultat dépasse de loin tous les modèles précédents et a attiré une large attention dans le domaine de la recherche en IA. Le benchmark ARC-AGI est conçu pour évaluer la capacité des systèmes d'IA à s'adapter à de nouvelles tâches et à démontrer une intelligence fluide. Il est extrêmement difficile et est considéré comme l'une des normes les plus difficiles en matière d'évaluation de l'IA. Les performances révolutionnaires d'o3 apportent sans aucun doute de nouvelles orientations et possibilités pour le développement de l'IA, mais cela ne signifie pas que l'AGI a été piratée.
Le dernier modèle o3 publié par OpenAI a obtenu des résultats étonnants dans le benchmark ARC-AGI, avec un score allant jusqu'à 75,7 % dans des conditions informatiques standard, et la version de calcul élevé a atteint 87,5 %. Cette réalisation a surpris la communauté des chercheurs en IA, mais elle ne prouve toujours pas que la généralité de l’intelligence artificielle (AGI) a été brisée.
Le benchmark ARC-AGI est basé sur l'Abstract Reasoning Corpus, un test conçu pour évaluer la capacité d'un système d'IA à s'adapter à de nouvelles tâches et à démontrer une intelligence fluide. ARC consiste en une série d'énigmes visuelles qui nécessitent la compréhension de concepts de base tels que les objets, les limites et les relations spatiales. Les humains peuvent facilement résoudre ces énigmes, mais les systèmes d’IA actuels sont confrontés à de grands défis à cet égard. L’ARC est considéré comme l’un des critères les plus difficiles en matière d’évaluation de l’IA.
o3 fonctionne nettement mieux que les modèles précédents. Le score le plus élevé de o1-preview et du modèle o1 sur ARC-AGI est de 32 %. Avant cela, le chercheur Jeremy Berman avait utilisé une méthode hybride pour combiner Claude3.5Sonnet avec un algorithme génétique, obtenant un score de 53 %, et l'émergence d'o3 était considérée comme un bond en avant dans les capacités de l'IA.
François Chollet, le fondateur d'ARC, a félicité o3 pour son changement qualitatif dans les capacités de l'IA et a estimé qu'il avait atteint un niveau sans précédent dans sa capacité d'adaptation à de nouvelles tâches.
Bien que o3 fonctionne bien, son coût de calcul est également assez élevé. Dans une configuration informatique faible, résoudre chaque puzzle coûte entre 17 et 20 dollars, consommant 33 millions de jetons ; dans une configuration informatique élevée, le coût de calcul augmente jusqu'à 172 fois, en utilisant des milliards de jetons. Cependant, à mesure que le coût de l’inférence diminue progressivement, ces frais généraux peuvent devenir plus raisonnables.
Il n'y a actuellement aucun détail sur la façon dont o3 a réalisé cette percée. Certains scientifiques pensent que o3 pourrait utiliser une méthode de synthèse de programme combinant la pensée en chaîne et les mécanismes de recherche. D'autres scientifiques pensent que l'o3 pourrait simplement provenir d'un apprentissage par renforcement plus étendu.
Bien que o3 ait fait des progrès significatifs sur ARC-AGI, Chollet a souligné que ARC-AGI n'est pas un test d'AGI et que o3 n'a pas encore atteint les normes AGI. Ses performances restent médiocres dans certaines tâches simples, ce qui montre des différences fondamentales par rapport à l'intelligence humaine. De plus, o3 s'appuie toujours sur une vérification externe pendant le processus de raisonnement, ce qui est loin de la capacité d'apprentissage indépendant d'AGI.
L'équipe de Chollet développe de nouveaux benchmarks ambitieux pour tester les capacités d'o3 et espère réduire son score en dessous de 30 %. Il souligne que la véritable AGI signifie qu’il deviendra presque impossible de créer des tâches simples pour les humains mais difficiles pour l’IA.
Souligner:
o3 a obtenu un score élevé de 75,7 % au test de référence ARC-AGI, surpassant les modèles précédents.
Le coût de la résolution de chaque énigme dans o3 peut atteindre 17 à 20 dollars américains, ce qui représente une somme de calcul énorme.
Bien que o3 fonctionne bien, les experts soulignent qu'il n'a pas encore atteint les normes AGI.
Dans l’ensemble, les excellentes performances du modèle o3 dans le test ARC-AGI démontrent les progrès significatifs de l’intelligence artificielle dans les capacités de raisonnement abstrait, mais ce n’est qu’un petit pas sur la voie d’une véritable AGI. Les recherches futures doivent encore continuer à explorer pour résoudre le coût de calcul élevé et les problèmes fondamentaux de l'AGI.