أظهرت دراسة حديثة اختبرت نماذج اللغة الكبيرة الرائدة (LLMs) في تقييم مونتريال المعرفي (MoCA) أن نماذج الذكاء الاصطناعي هذه أظهرت إعاقات إدراكية مماثلة لمرضى الخرف في المراحل المبكرة أثناء الاختبار. أدى هذا البحث، الذي نُشر في عدد عيد الميلاد الخاص من المجلة الطبية البريطانية، إلى إعادة التفكير في آفاق تطبيق الذكاء الاصطناعي في المجال الطبي، خاصة في المهام التي تتطلب قدرات بصرية مكانية ووظائف تنفيذية، حيث تم الكشف عن قيود الذكاء الاصطناعي. تتحدى نتائج البحث وجهة النظر القائلة بأن الذكاء الاصطناعي على وشك أن يحل محل الأطباء البشريين ويثير موضوعات جديدة لمواصلة تطوير الذكاء الاصطناعي في التطبيقات السريرية.
أظهرت دراسة جديدة أن أفضل نماذج الذكاء الاصطناعي أظهرت ضعفًا إدراكيًا مشابهًا لأعراض الخرف في مرحلة مبكرة عند اختبارها من خلال التقييم المعرفي في مونتريال (MoCA). تسلط هذه النتيجة الضوء على القيود المفروضة على الذكاء الاصطناعي في التطبيقات السريرية، وخاصة في المهام التي تتطلب مهارات بصرية وتنفيذية.
وجدت دراسة نُشرت في عدد عيد الميلاد الخاص بالمجلة الطبية البريطانية BMJ أن جميع النماذج اللغوية واسعة النطاق تقريبًا، أو "روبوتات الدردشة"، كان أداؤها أفضل عند استخدام اختبار تقييم شائع الاستخدام للكشف عن علامات الضعف الإدراكي المعتدل.
ووجدت الدراسة أيضًا أن الإصدارات القديمة من برامج الدردشة هذه، مثل المرضى المسنين من البشر، كان أداؤها أسوأ في الاختبارات. ويعتقد الباحثون أن هذه النتائج "تتحدى الافتراض القائل بأن الذكاء الاصطناعي سيحل قريبا محل الأطباء البشريين".
أثارت التطورات الأخيرة في الذكاء الاصطناعي الإثارة والقلق بشأن ما إذا كانت روبوتات الدردشة ستتفوق على الأطباء البشريين في المهام الطبية.
على الرغم من أن الأبحاث السابقة أظهرت أن النماذج اللغوية الكبيرة تؤدي أداءً جيدًا في مجموعة متنوعة من مهام التشخيص الطبي، إلا أن ما إذا كانت عرضة للإعاقات الإدراكية الشبيهة بالإنسان، مثل التدهور المعرفي، ظل غير مستكشف إلى حد كبير حتى الآن.
لسد هذه الفجوة المعرفية، استخدم الباحثون اختبار مونتريال للتقييم المعرفي (MoCA) لتقييم القدرات المعرفية للماجستير في القانون الرائد المتاح للجمهور حاليًا، بما في ذلك ChatGPT4 و4o الذي طورته OpenAI، وClaude3.5 "Sonnet" الذي طورته Anthropic، وGemini1 و 1.5 تم تطويره بواسطة الأبجدية.
يُستخدم اختبار MoCA على نطاق واسع للكشف عن علامات الضعف الإدراكي والخرف المبكر، غالبًا عند كبار السن. من خلال سلسلة من المهام والأسئلة القصيرة، يتم تقييم مجموعة متنوعة من القدرات بما في ذلك الانتباه والذاكرة والمهارات اللغوية والمهارات البصرية المكانية والوظائف التنفيذية. الحد الأقصى للدرجات هو 30 نقطة، ويعتبر 26 نقطة أو أكثر أمرًا طبيعيًا بشكل عام.
أعطى الباحثون تعليمات مهمة LLM مماثلة لتلك المعطاة للمرضى من البشر. اتبعت عملية التسجيل الإرشادات الرسمية وتم تقييمها من قبل طبيب أعصاب ممارس.
في اختبار MoCA، حقق ChatGPT4o أعلى الدرجات (26 من 30 نقطة)، يليه ChatGPT4 وClaude (25 من 30 نقطة)، وسجل Gemini1.0 أدنى الدرجات (16 من 30 نقطة).
كان أداء جميع روبوتات الدردشة ضعيفًا في المهارات البصرية المكانية وأداء مهام مثل اختبار الاتصال (ربط الأرقام والحروف المحاطة بدائرة بترتيب تصاعدي) واختبار رسم الساعة (رسم وجه ساعة يوضح وقتًا محددًا). فشل نموذج الجوزاء في مهمة استدعاء متأخرة (تذكر سلسلة من خمس كلمات).
كان أداء جميع روبوتات الدردشة جيدًا في معظم المهام الأخرى بما في ذلك التسمية والانتباه واللغة والتجريد.
ومع ذلك، في مزيد من الاختبارات البصرية المكانية، لم يتمكن برنامج الدردشة الآلي من إظهار التعاطف أو تفسير المشاهد المرئية المعقدة بدقة. نجح ChatGPT4o فقط في مرحلة التناقض في اختبار Stroop، والذي يستخدم مجموعة من أسماء الألوان وألوان الخطوط لقياس مدى تأثير التداخل على أوقات رد الفعل.
هذه نتائج رصدية، ويعترف الباحثون بوجود اختلافات جوهرية بين الدماغ البشري ونماذج اللغة واسعة النطاق.
ومع ذلك، فقد لاحظوا أن جميع نماذج اللغة واسعة النطاق فشلت باستمرار في المهام التي تتطلب تجريدًا بصريًا ووظيفة تنفيذية، مما يسلط الضوء على نقطة ضعف مهمة قد تعيق استخدامها في الإعدادات السريرية.
ونتيجة لذلك، استنتجوا: "ليس من غير المرجح أن يتم استبدال أطباء الأعصاب بنماذج لغوية كبيرة على المدى القصير فحسب، بل تشير النتائج التي توصلنا إليها إلى أنهم قد يجدون أنفسهم قريبًا يعالجون مرضى افتراضيين جدد - نماذج الذكاء الاصطناعي الإدراكي الناشئة للعقبات".
بشكل عام، كان هذا البحث بمثابة دعوة للاستيقاظ لتطبيق الذكاء الاصطناعي في المجال الطبي، مذكراً إيانا بأنه لا يمكننا أن نكون متفائلين بشكل أعمى ونحتاج إلى فهم واضح لقيود الذكاء الاصطناعي ومواصلة استكشاف استخدامه الآمن والمفيد. طرق تطبيق موثوقة. في المستقبل، ستكون كيفية تعويض النقص في القدرات المعرفية للذكاء الاصطناعي بمثابة اتجاه مهم لتطوير الذكاء الاصطناعي.