L'éditeur de Downcodes a appris que les dernières recherches d'OpenAI montrent que même avec les progrès rapides de la technologie de l'IA, la précision des modèles de langage les plus avancés actuels pour répondre aux questions factuelles reste préoccupante. Cette étude a utilisé le benchmark SimpleQA d'OpenAI. Les résultats des tests ont montré que même les meilleurs modèles d'OpenAI étaient bien inférieurs aux attentes, ce qui a déclenché un réexamen des capacités d'acquisition de connaissances des modèles d'IA.
L'étude a utilisé le test de référence SimpleQA d'OpenAI. Ce test contient 4 326 questions, couvrant plusieurs domaines tels que la science, la politique et l'art. Chaque question a une réponse claire et correcte.
Après vérification par deux évaluateurs indépendants, les résultats montrent que la précision du meilleur modèle o1-preview d'OpenAI n'est que de 42,7 %, tandis que GPT-4o est légèrement inférieure, seulement 38,2 %. Quant au plus petit GPT-4o-mini, la précision n'est même que de 8,6 %. En comparaison, le modèle Claude d'Anthropic a été encore moins performant, le sonnet Claude-3,5 atteignant une précision de seulement 28,9 %.
La clé de cette recherche réside dans la conception du test, non seulement pour tester les performances de l’IA, mais aussi pour sensibiliser chacun aux limites des modèles d’IA dans l’acquisition de connaissances. Les chercheurs soulignent que lorsque les utilisateurs utilisent ces modèles, ils doivent les considérer comme des outils de traitement de l’information plutôt que comme des sources de connaissances totalement dépendantes. Afin d’obtenir des réponses plus précises, il est préférable de fournir à l’IA des données fiables plutôt que de se fier uniquement à ses connaissances intégrées.
Il convient de noter que les modèles d’IA ont souvent des estimations trop optimistes de leurs capacités. Les chercheurs ont constaté que lorsqu’on demandait à ces modèles d’évaluer la confiance dans leurs réponses, ils donnaient souvent des scores de précision gonflés. Dans les tests où l’on répondait plusieurs fois aux mêmes questions, même si les modèles donnaient plusieurs fois la même réponse, leur taux de réussite réel était toujours inférieur à leur précision auto-évaluée. Cela concorde avec les critiques extérieures selon lesquelles les modèles linguistiques produisent souvent des réponses ridicules mais semblent confiants.
Les chercheurs estiment que le système d’IA actuel présente des lacunes évidentes en termes d’exactitude factuelle et qu’il doit être amélioré de toute urgence. Ils ont également soulevé la question ouverte de savoir si la performance d’une IA à répondre à de courtes questions factuelles prédit sa performance à traiter des réponses plus longues et plus complexes. Afin de soutenir le développement de modèles de langage plus fiables, OpenAI a publié publiquement les données de référence SimpleQA sur Github.
Cette recherche constitue un avertissement quant à la fiabilité des modèles d’IA et indique la voie à suivre pour de futures améliorations. Nous devons utiliser les outils d’IA avec plus de prudence et espérer de plus grandes avancées dans l’exactitude factuelle des modèles d’IA à l’avenir. Les données de référence SimpleQA publiées publiquement par OpenAI contribueront à promouvoir le développement de l'ensemble du domaine de l'IA.