Um estudo recente que testou os principais modelos de linguagem de grande porte (LLMs) na Avaliação Cognitiva de Montreal (MoCA) mostrou que esses modelos de IA exibiram deficiências cognitivas semelhantes às dos pacientes com demência em estágio inicial durante o teste. Esta investigação, publicada na edição especial de Natal do British Medical Journal, desencadeou um repensar das perspectivas de aplicação da IA na área médica, especialmente em tarefas que requerem capacidades visuoespaciais e funções executivas, onde as limitações da IA foram expostas. Os resultados da investigação desafiam a visão de que a IA está prestes a substituir os médicos humanos e levanta novos tópicos para o desenvolvimento futuro da IA em aplicações clínicas.
Um novo estudo mostra que os principais modelos de inteligência artificial mostraram comprometimento cognitivo semelhante aos sintomas de demência em estágio inicial quando testados com a Avaliação Cognitiva de Montreal (MoCA). Esta descoberta destaca as limitações da inteligência artificial em aplicações clínicas, especialmente em tarefas que requerem habilidades visuais e executivas.
Um estudo publicado na edição especial de Natal do The BMJ descobriu que quase todos os principais modelos de linguagem em grande escala, ou “chatbots”, tiveram melhor desempenho ao usar um teste de avaliação comumente usado para detectar sinais de demência em estágio inicial de comprometimento cognitivo leve.
O estudo também descobriu que versões mais antigas desses chatbots, assim como pacientes humanos idosos, tiveram pior desempenho nos testes. Os pesquisadores acreditam que essas descobertas “desafiam a suposição de que a inteligência artificial substituirá em breve os médicos humanos”.
Avanços recentes na inteligência artificial despertaram entusiasmo e preocupação sobre se os chatbots superarão os médicos humanos em tarefas médicas.
Embora pesquisas anteriores tenham mostrado que os grandes modelos de linguagem (LLMs) têm um bom desempenho em uma variedade de tarefas de diagnóstico médico, se eles são suscetíveis a deficiências cognitivas semelhantes às humanas, como o declínio cognitivo, permaneceu amplamente inexplorado.
Para preencher esta lacuna de conhecimento, os pesquisadores usaram o teste Montreal Cognitive Assessment (MoCA) para avaliar as habilidades cognitivas dos principais LLMs atualmente disponíveis publicamente, incluindo ChatGPT4 e 4o desenvolvido pela OpenAI, Claude3.5 "Sonnet" desenvolvido pela Anthropic, e Gemini1 e 1.5 desenvolvido pela Alphabet.
O teste MoCA é amplamente utilizado para detectar sinais de comprometimento cognitivo e demência precoce, muitas vezes em adultos mais velhos. Através de uma série de tarefas e perguntas curtas, avalia uma variedade de habilidades, incluindo atenção, memória, habilidades linguísticas, habilidades visuoespaciais e funções executivas. A pontuação máxima é de 30 pontos e 26 pontos ou mais são geralmente considerados normais.
Os pesquisadores deram instruções de tarefa ao LLM idênticas às dadas aos pacientes humanos. A pontuação seguiu as diretrizes oficiais e foi avaliada por um neurologista praticante.
No teste MoCA, ChatGPT4o obteve a pontuação mais alta (26 de 30 pontos), seguido por ChatGPT4 e Claude (25 de 30 pontos), e Gemini1.0 obteve a pontuação mais baixa (16 de 30 pontos).
Todos os chatbots tiveram um desempenho ruim nas habilidades visuo-espaciais e realizaram tarefas como o teste de conexão (conectando números e letras circulados em ordem crescente) e o teste de desenho do relógio (desenhando um mostrador de relógio mostrando uma hora específica). O modelo Gemini falhou em uma tarefa de recordação atrasada (lembrar uma sequência de cinco palavras).
Todos os chatbots tiveram um bom desempenho na maioria das outras tarefas, incluindo nomeação, atenção, linguagem e abstração.
No entanto, em testes visuais-espaciais adicionais, o chatbot não conseguiu demonstrar empatia ou interpretar com precisão cenas visuais complexas. Apenas o ChatGPT4o teve sucesso na fase de incongruência do teste Stroop, que usa uma combinação de nomes de cores e cores de fontes para medir como a interferência afeta os tempos de reação.
Estas são descobertas observacionais, e os investigadores reconhecem que existem diferenças fundamentais entre o cérebro humano e os modelos de linguagem em grande escala.
No entanto, observaram que todos os modelos de linguagem em larga escala falharam consistentemente em tarefas que exigiam abstração visual e função executiva, destacando uma fraqueza importante que pode dificultar a sua utilização em ambientes clínicos.
Como resultado, eles concluem: “Não só é pouco provável que os neurologistas sejam substituídos por grandes modelos de linguagem no curto prazo, como as nossas descobertas sugerem que em breve poderão tratar novos pacientes virtuais – Modelos de Obstáculos de Inteligência Artificial cognitiva emergentes”.
Em suma, esta investigação soou como um alerta para a aplicação da inteligência artificial na área médica, lembrando-nos que não podemos ser cegamente optimistas e precisamos de ter uma compreensão clara das limitações da IA e explorar mais a fundo a sua segurança e métodos de aplicação confiáveis. No futuro, como compensar as deficiências nas capacidades cognitivas da IA será uma direção importante para o desenvolvimento da inteligência artificial.