Une étude récente qui a testé les principaux modèles de langage étendus (LLM) sur l'évaluation cognitive de Montréal (MoCA) a montré que ces modèles d'IA présentaient des déficiences cognitives similaires à celles des patients atteints de démence à un stade précoce au cours du test. Cette recherche, publiée dans le numéro spécial de Noël du British Medical Journal, a déclenché une réflexion sur les perspectives d’application de l’IA dans le domaine médical, en particulier dans les tâches qui nécessitent des capacités visuospatiales et des fonctions exécutives, où les limites de l’IA ont été révélées. Les résultats de la recherche remettent en question l’idée selon laquelle l’IA est sur le point de remplacer les médecins humains et soulèvent de nouveaux sujets pour le développement ultérieur de l’IA dans les applications cliniques.
Une nouvelle étude montre que les meilleurs modèles d'intelligence artificielle ont montré des déficiences cognitives similaires aux symptômes de la démence à un stade précoce lorsqu'ils ont été testés avec le Montreal Cognitive Assessment (MoCA). Cette découverte met en évidence les limites de l’intelligence artificielle dans les applications cliniques, notamment dans les tâches qui nécessitent des compétences visuelles et exécutives.
Une étude publiée dans le numéro spécial de Noël du BMJ a révélé que presque tous les principaux modèles de langage à grande échelle, ou « chatbots », obtenaient de meilleurs résultats lors de l'utilisation d'un test d'évaluation couramment utilisé pour détecter les signes de démence à un stade précoce.
L’étude a également révélé que les anciennes versions de ces chatbots, comme les patients humains vieillissants, avaient de moins bons résultats lors des tests. Les chercheurs estiment que ces résultats « remettent en question l’hypothèse selon laquelle l’intelligence artificielle remplacera bientôt les médecins humains ».
Les progrès récents en matière d’intelligence artificielle ont suscité enthousiasme et inquiétude quant à la capacité des chatbots à surpasser les médecins humains dans les tâches médicales.
Bien que des recherches antérieures aient montré que les grands modèles de langage (LLM) fonctionnent bien dans diverses tâches de diagnostic médical, leur sensibilité aux déficiences cognitives de type humain, telles que le déclin cognitif, est restée largement inexplorée jusqu'à présent.
Pour combler ce manque de connaissances, les chercheurs ont utilisé le test Montreal Cognitive Assessment (MoCA) pour évaluer les capacités cognitives des principaux LLM actuellement accessibles au public, notamment ChatGPT4 et 4o développés par OpenAI, Claude3.5 « Sonnet » développé par Anthropic et Gemini1 et 1.5 développé par Alphabet.
Le test MoCA est largement utilisé pour détecter les signes de troubles cognitifs et de démence précoce, souvent chez les personnes âgées. Grâce à une série de tâches et de questions courtes, il évalue diverses capacités, notamment l'attention, la mémoire, les compétences linguistiques, les compétences visuospatiales et les fonctions exécutives. Le score maximum est de 30 points et 26 points ou plus sont généralement considérés comme normaux.
Les chercheurs ont donné aux tâches LLM des instructions identiques à celles données aux patients humains. La notation suivait les directives officielles et était évaluée par un neurologue en exercice.
Dans le test MoCA, ChatGPT4o a obtenu le score le plus élevé (26 sur 30 points), suivi de ChatGPT4 et Claude (25 sur 30 points), et Gemini1.0 a obtenu le score le plus bas (16 sur 30 points).
Tous les chatbots ont obtenu de mauvais résultats en termes de compétences visuo-spatiales et ont effectué des tâches telles que le test de connexion (connecter des chiffres et des lettres encerclés par ordre croissant) et le test de dessin d'horloge (dessiner un cadran d'horloge indiquant une heure spécifique). Le modèle Gemini a échoué lors d'une tâche de rappel retardé (se souvenir d'une séquence de cinq mots).
Tous les chatbots ont bien fonctionné sur la plupart des autres tâches, notamment la dénomination, l'attention, le langage et l'abstraction.
Cependant, lors de tests visuo-spatiaux plus approfondis, le chatbot n’a pas été en mesure de démontrer de l’empathie ou d’interpréter avec précision des scènes visuelles complexes. Seul ChatGPT4o a réussi la phase d'incongruité du test Stroop, qui utilise une combinaison de noms de couleurs et de couleurs de police pour mesurer l'impact des interférences sur les temps de réaction.
Il s’agit de résultats d’observation et les chercheurs reconnaissent qu’il existe des différences fondamentales entre le cerveau humain et les modèles linguistiques à grande échelle.
Cependant, ils ont noté que tous les modèles de langage à grande échelle échouaient systématiquement dans les tâches nécessitant une abstraction visuelle et une fonction exécutive, mettant en évidence une faiblesse importante qui pourrait entraver leur utilisation en milieu clinique.
En conséquence, ils concluent : « Non seulement il est peu probable que les neurologues soient remplacés par de grands modèles de langage à court terme, mais nos résultats suggèrent qu’ils pourraient bientôt se retrouver à traiter de nouveaux patients virtuels – de nouveaux modèles d’obstacles cognitifs d’intelligence artificielle. »
Dans l’ensemble, cette recherche a sonné un signal d’alarme en faveur de l’application de l’intelligence artificielle dans le domaine médical, nous rappelant que nous ne pouvons pas être aveuglément optimistes et que nous devons bien comprendre les limites de l’IA et explorer davantage ses possibilités de sécurité et de sécurité. méthodes d'application fiables. À l’avenir, la manière de combler les déficits des capacités cognitives de l’IA constituera une orientation importante pour le développement de l’intelligence artificielle.