L'éditeur de Downcodes rapporte : Le nouveau système de chatbot d'OpenAI est en tête de liste dans les évaluations récentes. Il fonctionne bien en termes de performances globales, de sécurité et de capacités techniques, en particulier dans les tâches STEM. Il convient toutefois de noter que le nombre de notations participant à cette évaluation était relativement faible, ce qui peut avoir un certain impact sur les résultats finaux et doit être interprété avec prudence.
Le nouveau système d’OpenAI a obtenu d’excellents résultats lors des évaluations récentes, occupant la première place du classement des chatbots. Cependant, en raison du faible nombre de notes, cela peut fausser les résultats de l'évaluation.
Selon l'aperçu du communiqué, les nouveaux systèmes ont obtenu de bons résultats dans toutes les catégories d'évaluation, y compris les performances globales, la sécurité et les capacités techniques. L'un des systèmes, dédié aux tâches STEM, s'est brièvement classé deuxième et a pris la tête dans le domaine technologique, aux côtés de la version GPT-4o lancée début septembre.
Chatbot Arena, une plateforme de comparaison de différents systèmes, évalue les nouveaux systèmes à l'aide de plus de 6 000 évaluations communautaires. Les résultats ont montré que ces nouveaux systèmes fonctionnaient bien sur les tâches mathématiques, les invites complexes et la programmation.
Cependant, ces nouveaux systèmes reçoivent des notes bien inférieures à celles d'autres systèmes matures tels que GPT-4o ou Claude3.5 d'Anthropic, chacun avec moins de 3 000 avis. Une taille d’échantillon aussi petite peut fausser l’évaluation et limiter la signification des résultats.
Le nouveau système d'OpenAI excelle en mathématiques et en codage, qui étaient les principaux objectifs de sa conception. En « réfléchissant » plus longtemps avant de répondre, ces systèmes visent à établir de nouvelles normes pour le raisonnement de l’IA. Cependant, ces systèmes ne surpassent pas les autres dans tous les domaines. De nombreuses tâches ne nécessitent pas de raisonnement logique complexe et parfois une réponse rapide d’autres systèmes suffit.
Le graphique de Lmsys sur la force du modèle mathématique montre clairement que ces nouveaux systèmes ont obtenu un score supérieur à 1 360, bien au-dessus des performances des autres systèmes.
Malgré la taille limitée de l'échantillon, les excellentes performances du nouveau système d'OpenAI méritent toujours l'attention. Ses avancées dans les domaines des mathématiques et du codage ouvrent une nouvelle direction pour le développement de la technologie de raisonnement de l’IA. À l'avenir, avec l'accumulation de davantage de données et l'amélioration continue des modèles, le nouveau système d'OpenAI devrait démontrer ses puissantes capacités dans davantage de domaines. L'éditeur de Downcodes continuera de prêter attention à son développement.