近期一項研究對領先的大型語言模型(LLM)進行了蒙特利爾認知評估(MoCA)測試,結果顯示這些AI模型在測試中表現出與早期癡呆症患者相似的認知障礙。這項發表於《英國醫學雜誌》聖誕特刊的研究引發了人們對AI在醫療領域的應用前景的重新思考,尤其是在需要視覺空間能力和執行功能的任務中,AI的局限性暴露無遺。研究結果挑戰了AI即將取代人類醫師的觀點,並為AI在臨床應用中的進一步發展提出了新的課題。
一項最新研究表明,頂尖的人工智慧模型在接受蒙特利爾認知評估(MoCA)測試時,表現出與早期癡呆症狀相似的認知障礙。這項發現強調了人工智慧在臨床應用中的局限性,尤其是在需要視覺和執行技能的任務中。
發表在《英國醫學雜誌》(The BMJ)聖誕特刊上的一項研究指出,幾乎所有領先的大型語言模型,或稱“聊天機器人”,在使用常用於檢測早期癡呆的評估測試時,都表現出輕度認知障礙的跡象。
研究還發現,這些聊天機器人的舊版本,就像老化的人類患者一樣,在測試中的表現更差。研究人員認為,這些發現「挑戰了人工智慧很快就會取代人類醫生的假設」。
人工智慧的最新進展引發了人們的興奮和擔憂,人們開始思考聊天機器人是否會在醫療任務中超越人類醫生。
儘管先前的研究表明,大型語言模型(LLM)在各種醫療診斷任務中表現出色,但它們是否容易受到類似人類的認知障礙(如認知衰退)的影響,在很大程度上仍未被探索——直到現在。
為了填補這一知識空白,研究人員使用蒙特利爾認知評估(MoCA)測試,評估了目前公開可用的領先LLM的認知能力,包括OpenAI開發的ChatGPT4和4o、Anthropic開發的Claude3.5“Sonnet” 以及Alphabet開發的Gemini1和1.5。
MoCA測試廣泛用於檢測認知障礙和早期失智症跡象,通常用於老年人。透過一系列簡短的任務和問題,它可以評估包括注意力、記憶力、語言能力、視覺空間技能和執行功能在內的多種能力。最高分為30分,一般認為26分或以上為正常。
研究人員給LLM的任務指令與給人類病患的指令相同。評分遵循官方指南,並由一位執業神經科醫生進行評估。
在MoCA測試中,ChatGPT4o取得了最高分(30分中的26分),其次是ChatGPT4和Claude(30分中的25分),Gemini1.0得分最低(30分中的16分)。
所有聊天機器人在視覺空間技能和執行任務方面的表現都很差,例如連線測試(按升序連接帶圈的數字和字母)和畫鐘測試(畫一個顯示特定時間的鐘面)。 Gemini模型在延遲回憶任務(記住一個五個字的序列)中失敗。
所有聊天機器人在包括命名、注意力、語言和抽像在內的大多數其他任務中表現良好。
然而,在進一步的視覺空間測試中,聊天機器人無法表現出同理心或準確地解釋複雜的視覺場景。只有ChatGPT4o在斯特魯普測試的不一致階段取得了成功,該測試使用顏色名稱和字體顏色的組合來衡量幹擾如何影響反應時間。
這些都是觀察性發現,研究人員承認人類大腦和大型語言模型之間存在本質差異。
然而,他們指出,所有大型語言模型在需要視覺抽象和執行功能的任務中都一致失敗,這突顯了一個可能阻礙其在臨床環境中使用的重要弱點。
因此,他們得出結論:「神經科醫生不僅不太可能在短期內被大型語言模型取代,而且我們的發現表明,他們可能很快就會發現自己正在治療新的、虛擬的病人——出現認知障礙的人工智慧模型。
總而言之,這項研究為人工智慧在醫療領域的應用敲響了警鐘,提醒我們不能盲目樂觀,需要對AI的局限性有清醒的認識,並進一步探索其安全可靠的應用途徑。未來,如何彌補AI在認知能力上的不足,將是人工智慧發展的重要方向。