MoCA(몬트리올 인지 평가)에서 주요 LLM(대형 언어 모델)을 테스트한 최근 연구에 따르면 이러한 AI 모델은 테스트 중에 초기 치매 환자와 유사한 인지 장애를 보인 것으로 나타났습니다. 영국 의학 저널(British Medical Journal) 크리스마스 특집호에 게재된 이 연구는 의료 분야, 특히 AI의 한계가 노출된 시공간 능력과 실행 기능이 필요한 작업에서 AI의 적용 전망에 대한 재고를 촉발시켰습니다. 연구 결과는 AI가 인간 의사를 대체할 것이라는 견해에 도전하고 임상 응용 분야에서 AI의 추가 개발을 위한 새로운 주제를 제기합니다.
새로운 연구에 따르면 최고의 인공 지능 모델은 몬트리올 인지 평가(MoCA)로 테스트했을 때 초기 치매 증상과 유사한 인지 장애를 보였습니다. 이 발견은 임상 적용, 특히 시각 및 실행 기술이 필요한 작업에서 인공 지능의 한계를 강조합니다.
The BMJ의 크리스마스 특집호에 발표된 연구에 따르면 초기 치매 징후를 감지하는 데 일반적으로 사용되는 평가 테스트를 사용할 때 거의 모든 주요 대규모 언어 모델 또는 "챗봇"이 더 나은 성능을 발휘하는 것으로 나타났습니다.
이 연구는 또한 노인 환자와 마찬가지로 이러한 챗봇의 이전 버전이 테스트에서 더 나쁜 성능을 발휘한다는 사실을 발견했습니다. 연구자들은 이번 발견이 "인공지능이 곧 인간 의사를 대체할 것이라는 가정에 도전한다"고 믿습니다.
최근 인공 지능의 발전으로 인해 챗봇이 의료 업무에서 인간 의사를 능가할 것인지에 대한 기대와 우려가 촉발되었습니다.
이전 연구에서는 LLM(대형 언어 모델)이 다양한 의료 진단 작업에서 우수한 성능을 발휘하는 것으로 나타났지만, 인지 저하와 같은 인간과 유사한 인지 장애에 취약한지 여부는 지금까지 거의 탐구되지 않은 상태로 남아 있습니다.
이러한 지식 격차를 메우기 위해 연구원들은 MoCA(몬트리올 인지 평가) 테스트를 사용하여 OpenAI에서 개발한 ChatGPT4 및 4o, Anthropic에서 개발한 Claude3.5 "Sonnet", Gemini1 및 1.5는 알파벳에서 개발했습니다.
MoCA 테스트는 인지 장애 및 조기 치매의 징후를 발견하는 데 널리 사용되며, 종종 노인에게서 발생합니다. 일련의 짧은 과제와 질문을 통해 주의력, 기억력, 언어 능력, 시공간 능력 및 실행 기능을 포함한 다양한 능력을 평가합니다. 최대 점수는 30점이며, 26점 이상은 일반적으로 정상으로 간주됩니다.
연구자들은 인간 환자에게 주어진 것과 동일한 LLM 작업 지침을 제공했습니다. 채점은 공식 지침을 따랐으며 현직 신경과 전문의에 의해 평가되었습니다.
MoCA 테스트에서는 ChatGPT4o가 가장 높은 점수(30점 중 26점)를 얻었고, ChatGPT4와 Claude(30점 중 25점)가 그 뒤를 이었고, Gemini1.0이 가장 낮은 점수(30점 중 16점)를 얻었습니다.
모든 챗봇은 시공간적 능력이 부족하여 연결 테스트(원 안의 숫자와 문자를 오름차순으로 연결), 시계 그리기 테스트(특정 시간을 나타내는 시계 문자판 그리기) 등의 작업을 수행했습니다. Gemini 모델은 지연된 회상 작업(5개 단어의 순서 기억)에서 실패했습니다.
모든 챗봇은 명명, 주의, 언어 및 추상화를 포함한 대부분의 다른 작업에서 좋은 성능을 보였습니다.
그러나 추가 시각적 공간 테스트에서 챗봇은 공감을 보여주지 못하거나 복잡한 시각적 장면을 정확하게 해석하지 못했습니다. ChatGPT4o만이 색상 이름과 글꼴 색상의 조합을 사용하여 간섭이 반응 시간에 미치는 영향을 측정하는 Stroop 테스트의 불일치 단계에 성공했습니다.
이는 관찰 결과이며 연구자들은 인간의 두뇌와 대규모 언어 모델 사이에 근본적인 차이가 있음을 인정합니다.
그러나 그들은 모든 대규모 언어 모델이 시각적 추상화 및 실행 기능이 필요한 작업에서 지속적으로 실패했으며 이는 임상 환경에서 사용을 방해할 수 있는 중요한 약점을 강조했습니다.
따라서 그들은 다음과 같이 결론을 내렸습니다. "신경과 전문의는 단기적으로 대규모 언어 모델로 대체될 가능성이 없을 뿐만 아니라, 우리의 연구 결과에 따르면 그들은 곧 새로운 가상 환자, 즉 신흥 인지 인공 지능 모델을 치료하게 될 수도 있습니다."
전체적으로 이번 연구는 의료 분야에 인공지능을 적용하는 것에 대한 경종을 울려 우리에게 맹목적으로 낙관하지 말고 인공지능의 한계를 명확히 이해하고 안전하고 신뢰할 수 있는 적용 방법을 더 탐구할 것을 일깨워주었다. 앞으로 AI의 인지능력 부족을 어떻게 보완할 것인지가 인공지능 발전의 중요한 방향이 될 것이다.