Eine kürzlich durchgeführte Studie, in der führende Large Language Models (LLMs) im Rahmen des Montreal Cognitive Assessment (MoCA) getestet wurden, zeigte, dass diese KI-Modelle während des Tests ähnliche kognitive Beeinträchtigungen aufwiesen wie Patienten mit Demenz im Frühstadium. Diese in der Weihnachts-Sonderausgabe des British Medical Journal veröffentlichte Studie hat ein Umdenken über die Anwendungsaussichten von KI im medizinischen Bereich ausgelöst, insbesondere bei Aufgaben, die visuell-räumliche Fähigkeiten und exekutive Funktionen erfordern, wo die Grenzen der KI aufgedeckt wurden. Die Forschungsergebnisse stellen die Ansicht in Frage, dass KI dabei ist, menschliche Ärzte zu ersetzen, und werfen neue Themen für die Weiterentwicklung von KI in klinischen Anwendungen auf.
Eine neue Studie zeigt, dass Spitzenmodelle der künstlichen Intelligenz beim Test mit dem Montreal Cognitive Assessment (MoCA) kognitive Beeinträchtigungen zeigten, die den Symptomen einer Demenz im Frühstadium ähnelten. Dieses Ergebnis verdeutlicht die Grenzen künstlicher Intelligenz in klinischen Anwendungen, insbesondere bei Aufgaben, die visuelle und exekutive Fähigkeiten erfordern.
Eine in der Weihnachtssonderausgabe des BMJ veröffentlichte Studie ergab, dass fast alle führenden groß angelegten Sprachmodelle oder „Chatbots“ besser abschneiden, wenn sie einen Bewertungstest verwenden, der üblicherweise zur Erkennung von Anzeichen einer leichten kognitiven Beeinträchtigung im Frühstadium verwendet wird.
Die Studie ergab außerdem, dass ältere Versionen dieser Chatbots, wie etwa alternde menschliche Patienten, in Tests schlechter abschnitten. Die Forscher glauben, dass diese Ergebnisse „die Annahme in Frage stellen, dass künstliche Intelligenz bald menschliche Ärzte ersetzen wird“.
Die jüngsten Fortschritte in der künstlichen Intelligenz haben Aufregung und Besorgnis darüber ausgelöst, ob Chatbots menschliche Ärzte bei medizinischen Aufgaben übertreffen werden.
Obwohl frühere Untersuchungen gezeigt haben, dass große Sprachmodelle (LLMs) bei einer Vielzahl medizinischer Diagnoseaufgaben gut funktionieren, ist die Frage, ob sie anfällig für menschenähnliche kognitive Beeinträchtigungen wie kognitiven Verfall sind, bislang weitgehend unerforscht.
Um diese Wissenslücke zu schließen, verwendeten die Forscher den Montreal Cognitive Assessment (MoCA)-Test, um die kognitiven Fähigkeiten führender LLMs zu bewerten, die derzeit öffentlich verfügbar sind, darunter ChatGPT4 und 4o, entwickelt von OpenAI, Claude3.5 „Sonnet“, entwickelt von Anthropic, und Gemini1 und 1.5, entwickelt von Alphabet.
Der MoCA-Test wird häufig zur Erkennung von Anzeichen einer kognitiven Beeinträchtigung und einer frühen Demenz eingesetzt, häufig bei älteren Erwachsenen. Durch eine Reihe kurzer Aufgaben und Fragen werden verschiedene Fähigkeiten bewertet, darunter Aufmerksamkeit, Gedächtnis, Sprachkenntnisse, visuell-räumliche Fähigkeiten und exekutive Funktionen. Die maximale Punktzahl beträgt 30 Punkte, 26 Punkte oder mehr gelten im Allgemeinen als normal.
Die Forscher gaben der LLM-Aufgabe Anweisungen, die mit denen identisch waren, die menschlichen Patienten gegeben wurden. Die Bewertung erfolgte nach offiziellen Richtlinien und wurde von einem praktizierenden Neurologen beurteilt.
Im MoCA-Test erzielte ChatGPT4o die höchste Punktzahl (26 von 30 Punkten), gefolgt von ChatGPT4 und Claude (25 von 30 Punkten) und Gemini1.0 erreichte die niedrigste Punktzahl (16 von 30 Punkten).
Alle Chatbots schnitten bei den visuell-räumlichen Fähigkeiten schlecht ab und erledigten Aufgaben wie den Verbindungstest (Verbinden eingekreister Zahlen und Buchstaben in aufsteigender Reihenfolge) und den Uhr-Zeichentest (Zeichnen eines Zifferblatts mit einer bestimmten Uhrzeit). Das Gemini-Modell scheiterte bei einer verzögerten Rückrufaufgabe (Erinnern an eine Folge von fünf Wörtern).
Bei den meisten anderen Aufgaben, einschließlich Benennung, Aufmerksamkeit, Sprache und Abstraktion, schnitten alle Chatbots gut ab.
Bei weiteren visuell-räumlichen Tests war der Chatbot jedoch nicht in der Lage, Empathie zu zeigen oder komplexe visuelle Szenen genau zu interpretieren. Nur ChatGPT4o hat die Inkongruenzphase des Stroop-Tests bestanden, bei dem eine Kombination aus Farbnamen und Schriftfarben verwendet wird, um zu messen, wie sich Interferenzen auf die Reaktionszeiten auswirken.
Dabei handelt es sich um Beobachtungsergebnisse, und die Forscher erkennen an, dass es grundlegende Unterschiede zwischen dem menschlichen Gehirn und groß angelegten Sprachmodellen gibt.
Sie stellten jedoch fest, dass alle großen Sprachmodelle bei Aufgaben, die visuelle Abstraktion und exekutive Funktionen erfordern, durchweg versagten, was auf eine wichtige Schwäche hinweist, die ihre Verwendung in klinischen Umgebungen behindern könnte.
Als Ergebnis kommen sie zu dem Schluss: „Es ist nicht nur unwahrscheinlich, dass Neurologen kurzfristig durch große Sprachmodelle ersetzt werden, unsere Ergebnisse deuten auch darauf hin, dass sie möglicherweise bald neue, virtuelle Patienten behandeln – neue kognitive künstliche Intelligenzmodelle für Hindernisse.“
Alles in allem hat diese Forschung einen Weckruf für die Anwendung künstlicher Intelligenz im medizinischen Bereich ausgelöst und uns daran erinnert, dass wir nicht blind optimistisch sein können und ein klares Verständnis für die Grenzen der KI haben und ihre Sicherheit und Sicherheit weiter erforschen müssen zuverlässige Anwendungsmethoden. In Zukunft wird die Frage, wie die Defizite in den kognitiven Fähigkeiten der KI ausgeglichen werden können, eine wichtige Richtung für die Entwicklung künstlicher Intelligenz sein.