モントリオール認知評価 (MoCA) で主要な大規模言語モデル (LLM) をテストした最近の研究では、これらの AI モデルがテスト中に初期段階の認知症患者と同様の認知障害を示したことが示されました。ブリティッシュ・メディカル・ジャーナルのクリスマス特別号に掲載されたこの研究は、医療分野、特にAIの限界が露呈している視空間能力や実行機能を必要とするタスクにおけるAIの応用見通しを再考するきっかけとなった。この研究結果は、AIが人間の医師に取って代わろうとしているという見方に疑問を投げかけ、臨床応用におけるAIのさらなる発展に向けた新たな話題を提起している。
新しい研究では、モントリオール認知評価 (MoCA) でテストした場合、上位の人工知能モデルが初期段階の認知症の症状と同様の認知障害を示したことが示されています。この発見は、臨床応用、特に視覚的および実行的スキルを必要とするタスクにおける人工知能の限界を浮き彫りにしています。
BMJ のクリスマス特別号に掲載された研究では、軽度認知障害の兆候を検出するために一般的に使用される評価テストを使用すると、ほとんどすべての主要な大規模言語モデル、つまり「チャットボット」のパフォーマンスが向上したことがわかりました。
この研究では、これらのチャットボットの古いバージョンは、高齢の人間の患者と同様に、テストでのパフォーマンスが低いことも判明しました。研究者らは、これらの発見は「人工知能が間もなく人間の医師に取って代わるという仮定に疑問を投げかける」と考えている。
最近の人工知能の進歩により、チャットボットが医療業務において人間の医師を超えるかどうかについて興奮と懸念が生じています。
これまでの研究では、大規模言語モデル (LLM) がさまざまな医療診断タスクで良好に機能することが示されていますが、認知機能低下などの人間のような認知障害の影響を受けやすいかどうかは、これまでほとんど解明されていませんでした。
この知識のギャップを埋めるために、研究者らはモントリオール認知評価 (MoCA) テストを使用して、OpenAI によって開発された ChatGPT4 および 4o、Anthropic によって開発された Claude3.5 "Sonnet"、および Gemini1 など、現在一般に公開されている主要な LLM の認知能力を評価しました。 1.5はアルファベットによって開発されました。
MoCA テストは、多くの場合高齢者に見られる認知障害や初期の認知症の兆候を検出するために広く使用されています。一連の短いタスクと質問を通じて、注意力、記憶力、言語スキル、視空間スキル、実行機能などのさまざまな能力を評価します。最高点は 30 点で、一般に 26 以上が正常とみなされます。
研究者らは、人間の患者に与えるのと同じ指示を LLM に与えました。スコアリングは公式ガイドラインに従い、現役の神経内科医によって評価されました。
MoCA テストでは、ChatGPT4o が最も高いスコア (30 点中 26 点) を達成し、次に ChatGPT4 と Claude (30 点中 25 点) が続き、Gemini1.0 のスコアが最も低かった (30 点中 16 点)。
すべてのチャットボットは視覚空間スキルのパフォーマンスが低く、接続テスト (丸で囲まれた数字と文字を昇順に接続する) や時計描画テスト (特定の時刻を示す時計の文字盤を描画する) などのタスクを実行しました。 Gemini モデルは、遅延呼び出しタスク (5 つの単語のシーケンスを記憶する) に失敗しました。
すべてのチャットボットは、名前付け、注意、言語、抽象化など、他のほとんどのタスクで良好なパフォーマンスを示しました。
しかし、さらなる視覚空間テストでは、チャットボットは共感を示したり、複雑な視覚シーンを正確に解釈したりすることができませんでした。 ChatGPT4o だけが、色の名前とフォントの色の組み合わせを使用して干渉が反応時間に与える影響を測定するストループ テストの不一致フェーズに成功しました。
これらは観察結果であり、研究者らは人間の脳と大規模言語モデルの間には根本的な違いがあることを認めています。
しかし、彼らは、すべての大規模言語モデルが視覚的な抽象化と実行機能を必要とするタスクでは一貫して失敗し、臨床現場での使用を妨げる可能性がある重要な弱点を浮き彫りにしていると指摘しました。
したがって、彼らは次のように結論付けています。「神経内科医が短期的には大規模な言語モデルに取って代わられる可能性が低いだけでなく、我々の調査結果は、神経内科医が近いうちに新たな仮想患者、つまり障害物の新たな認知人工知能モデルを治療することになる可能性があることを示唆しています。」
全体として、この研究は医療分野での人工知能の応用に警鐘を鳴らしており、盲目的に楽観的になるのではなく、AIの限界を明確に理解し、その安全で信頼できる応用方法をさらに探究する必要があることを思い出させてくれます。将来的には、AIの認知能力の欠陥をどのように補うかが、人工知能の発展の重要な方向性となるでしょう。