Un estudio reciente que probó los principales modelos de lenguaje grande (LLM) en la Evaluación Cognitiva de Montreal (MoCA) mostró que estos modelos de IA exhibieron deterioros cognitivos similares a los de los pacientes con demencia en etapa temprana durante la prueba. Esta investigación, publicada en el número especial de Navidad del British Medical Journal, ha desencadenado un replanteamiento de las perspectivas de aplicación de la IA en el campo médico, especialmente en tareas que requieren habilidades visuoespaciales y funciones ejecutivas, donde las limitaciones de la IA han quedado al descubierto. Los resultados de la investigación cuestionan la opinión de que la IA está a punto de reemplazar a los médicos humanos y plantean nuevos temas para un mayor desarrollo de la IA en aplicaciones clínicas.
Un nuevo estudio muestra que los mejores modelos de inteligencia artificial mostraron un deterioro cognitivo similar a los síntomas de la demencia en etapa temprana cuando se probaron con la Evaluación Cognitiva de Montreal (MoCA). Este hallazgo resalta las limitaciones de la inteligencia artificial en aplicaciones clínicas, especialmente en tareas que requieren habilidades visuales y ejecutivas.
Un estudio publicado en la edición especial de Navidad de The BMJ encontró que casi todos los principales modelos de lenguaje a gran escala, o "chatbots", obtuvieron mejores resultados cuando utilizaron una prueba de evaluación comúnmente utilizada para detectar signos de demencia en etapa temprana de deterioro cognitivo leve.
El estudio también encontró que las versiones más antiguas de estos chatbots, como los pacientes humanos de edad avanzada, obtuvieron peores resultados en las pruebas. Los investigadores creen que estos hallazgos "desafían la suposición de que la inteligencia artificial pronto reemplazará a los médicos humanos".
Los recientes avances en inteligencia artificial han generado entusiasmo y preocupación sobre si los chatbots superarán a los médicos humanos en tareas médicas.
Aunque investigaciones anteriores han demostrado que los modelos de lenguaje grandes (LLM) funcionan bien en una variedad de tareas de diagnóstico médico, hasta ahora no se ha explorado en gran medida si son susceptibles a deterioros cognitivos similares a los humanos, como el deterioro cognitivo.
Para llenar este vacío de conocimiento, los investigadores utilizaron la prueba de Evaluación Cognitiva de Montreal (MoCA) para evaluar las capacidades cognitivas de los principales LLM actualmente disponibles públicamente, incluidos ChatGPT4 y 4o desarrollados por OpenAI, Claude3.5 "Sonnet" desarrollado por Anthropic y Gemini1 y 1.5 desarrollado por Alfabeto.
La prueba MoCA se usa ampliamente para detectar signos de deterioro cognitivo y demencia temprana, a menudo en adultos mayores. A través de una serie de tareas y preguntas breves, evalúa una variedad de habilidades que incluyen atención, memoria, habilidades lingüísticas, habilidades visoespaciales y funciones ejecutivas. La puntuación máxima es 30 puntos y 26 o más generalmente se considera normal.
Los investigadores dieron a la tarea LLM instrucciones idénticas a las dadas a los pacientes humanos. La puntuación siguió las pautas oficiales y fue evaluada por un neurólogo en ejercicio.
En la prueba MoCA, ChatGPT4o obtuvo la puntuación más alta (26 de 30 puntos), seguido de ChatGPT4 y Claude (25 de 30 puntos), y Gemini1.0 obtuvo la puntuación más baja (16 de 30 puntos).
Todos los chatbots obtuvieron malos resultados en habilidades visoespaciales y realizaron tareas como la prueba de conexión (conectar números y letras en círculos en orden ascendente) y la prueba de dibujo del reloj (dibujar una esfera de reloj que muestra una hora específica). El modelo Gemini falló en una tarea de recuerdo retardado (recordar una secuencia de cinco palabras).
Todos los chatbots tuvieron un buen desempeño en la mayoría de las demás tareas, incluidas la denominación, la atención, el lenguaje y la abstracción.
Sin embargo, en pruebas visoespaciales adicionales, el chatbot no pudo demostrar empatía ni interpretar con precisión escenas visuales complejas. Sólo ChatGPT4o tuvo éxito en la fase de incongruencia de la prueba Stroop, que utiliza una combinación de nombres de colores y colores de fuente para medir cómo la interferencia afecta los tiempos de reacción.
Estos son hallazgos observacionales y los investigadores reconocen que existen diferencias fundamentales entre el cerebro humano y los modelos de lenguaje a gran escala.
Sin embargo, observaron que todos los modelos de lenguaje a gran escala fallaban consistentemente en tareas que requerían abstracción visual y función ejecutiva, lo que destaca una debilidad importante que puede dificultar su uso en entornos clínicos.
Por lo tanto, concluyen: "No sólo es poco probable que los neurólogos sean reemplazados por grandes modelos de lenguaje en el corto plazo, sino que nuestros hallazgos sugieren que pronto podrían encontrarse tratando a nuevos pacientes virtuales: modelos de obstáculos cognitivos emergentes de inteligencia artificial".
Con todo, esta investigación ha hecho sonar la alarma para la aplicación de la inteligencia artificial en el campo médico, recordándonos que no debemos ser ciegamente optimistas, sino tener una comprensión clara de las limitaciones de la IA y explorar más a fondo sus métodos de aplicación seguros y confiables. En el futuro, cómo compensar las deficiencias en las capacidades cognitivas de la IA será una dirección importante para el desarrollo de la inteligencia artificial.