Récemment, l'Institut autrichien des sciences de la complexité (CSH) a évalué les connaissances historiques de trois principaux modèles de langage à grande échelle (LLM), GPT-4, Llama et Gemini, et les résultats ont été surprenants. L'équipe de recherche a utilisé un outil de test de référence appelé « Hist-LLM » pour tester l'exactitude du modèle dans la réponse aux questions historiques basées sur la base de données historique mondiale Seshat. Les résultats de la recherche ont été annoncés lors de la conférence NeurIPS sur l'intelligence artificielle et ont déclenché une réflexion approfondie sur les capacités d'application des LLM dans des domaines complexes.
Afin d'évaluer les performances de ces modèles sur les connaissances historiques, les chercheurs ont développé un outil de référence baptisé « Hist-LLM ». Cet outil est basé sur la base de données historique mondiale Seshat et est conçu pour vérifier l'exactitude des réponses de l'IA aux questions historiques. Les résultats de la recherche ont été annoncés lors de la célèbre conférence sur l'intelligence artificielle NeurIPS. Les données ont montré que la précision du GPT-4Turbo le plus performant n'était que de 46 %. Ce résultat montre que les performances ne sont que légèrement meilleures que les estimations aléatoires.
Maria del Rio-Chanona, professeure agrégée d'informatique à l'University College de Londres, a déclaré : « Bien que les grands modèles de langage soient impressionnants, leur compréhension approfondie des connaissances historiques de haut niveau est insuffisante. Ils sont doués pour gérer des faits simples, mais ont du mal à les comprendre. Par exemple, lorsqu'on lui a demandé si des armures en écailles existaient dans l'Égypte ancienne à une époque précise, GPT-4Turbo a répondu à tort « oui », alors qu'en fait cette technologie n'est apparue qu'il y a 1 500 ans. De plus, lorsque les chercheurs ont demandé si l’Égypte ancienne disposait d’une armée permanente professionnelle, GPT-4 a également répondu à tort « oui », alors que la réponse réelle était non.
L'étude a également révélé que le modèle fonctionnait mal dans certaines régions, comme l'Afrique subsaharienne, ce qui suggère que ses données de formation pourraient être biaisées. Le responsable de l'étude, Peter Turchin, a souligné que ces résultats reflètent le fait que dans certains domaines, les LLM sont toujours incapables de remplacer les humains.
Souligner:
- GPT-4Turbo a obtenu de mauvais résultats à l'examen d'histoire avancé avec une précision de seulement 46 %.
- Les recherches montrent que les grands modèles linguistiques sont encore insuffisants pour comprendre des connaissances historiques complexes.
- L'équipe de recherche espère améliorer le potentiel d'application du modèle dans la recherche historique en améliorant les outils de test.
Les résultats de cette étude nous rappellent que même si les modèles linguistiques à grande échelle ont fait des progrès significatifs dans de nombreux aspects, ils ont encore des limites lorsqu'il s'agit de traiter des problèmes complexes qui nécessitent une compréhension approfondie et une analyse méticuleuse. Les recherches futures doivent se concentrer sur la manière d'améliorer les données de formation et les algorithmes du modèle afin d'améliorer ses capacités d'application dans divers domaines et, à terme, d'aboutir à une véritable intelligence artificielle générale.