การศึกษาเมื่อเร็วๆ นี้ที่ทดสอบโมเดลภาษาขนาดใหญ่ (LLM) ชั้นนำใน Montreal Cognitive Assessment (MoCA) พบว่าโมเดล AI เหล่านี้มีความบกพร่องทางการรับรู้ที่คล้ายคลึงกันกับผู้ป่วยภาวะสมองเสื่อมระยะเริ่มแรกในระหว่างการทดสอบ งานวิจัยนี้ซึ่งตีพิมพ์ในวารสาร British Medical Journal ฉบับพิเศษช่วงคริสต์มาส ได้กระตุ้นให้เกิดการคิดใหม่เกี่ยวกับแนวโน้มการประยุกต์ใช้ AI ในสาขาการแพทย์ โดยเฉพาะอย่างยิ่งในงานที่ต้องใช้ความสามารถด้านการมองเห็นและหน้าที่ของผู้บริหาร ซึ่งข้อจำกัดของ AI ถูกเปิดเผย ผลการวิจัยท้าทายมุมมองที่ว่า AI กำลังจะเข้ามาแทนที่แพทย์ที่เป็นมนุษย์ และก่อให้เกิดหัวข้อใหม่สำหรับการพัฒนา AI ต่อไปในการใช้งานทางคลินิก
การศึกษาใหม่แสดงให้เห็นว่าโมเดลปัญญาประดิษฐ์ชั้นนำมีความบกพร่องทางสติปัญญาคล้ายกับอาการของโรคสมองเสื่อมระยะเริ่มต้น เมื่อทดสอบกับ Montreal Cognitive Assessment (MoCA) การค้นพบนี้เน้นย้ำถึงข้อจำกัดของปัญญาประดิษฐ์ในการใช้งานทางคลินิก โดยเฉพาะอย่างยิ่งในงานที่ต้องใช้ทักษะการมองเห็นและผู้บริหาร
การศึกษาที่ตีพิมพ์ใน The BMJ ฉบับคริสต์มาสพบว่าโมเดลภาษาขนาดใหญ่หรือ "แชทบอท" ชั้นนำเกือบทั้งหมดทำงานได้ดีขึ้นเมื่อใช้แบบทดสอบประเมินที่ใช้กันทั่วไปในการตรวจหาสัญญาณของความบกพร่องทางสติปัญญาระดับเล็กน้อย
การศึกษายังพบว่าแชทบอตเวอร์ชันเก่าๆ เช่น ผู้ป่วยในวัยชรา ทำงานได้แย่กว่าในการทดสอบ นักวิจัยเชื่อว่าการค้นพบนี้ "ท้าทายสมมติฐานที่ว่าปัญญาประดิษฐ์จะมาแทนที่แพทย์ที่เป็นมนุษย์ในไม่ช้า"
ความก้าวหน้าล่าสุดในด้านปัญญาประดิษฐ์ได้จุดประกายความตื่นเต้นและความกังวลว่าแชทบอทจะเหนือกว่าแพทย์ที่เป็นมนุษย์ในงานทางการแพทย์หรือไม่
แม้ว่าการวิจัยก่อนหน้านี้ได้แสดงให้เห็นว่าโมเดลภาษาขนาดใหญ่ (LLM) ทำงานได้ดีในงานวินิจฉัยทางการแพทย์ที่หลากหลาย ไม่ว่าโมเดลเหล่านี้จะมีความอ่อนไหวต่อความบกพร่องทางสติปัญญาเหมือนมนุษย์ เช่น การเสื่อมถอยของการรับรู้ แต่ก็ยังไม่ได้รับการสำรวจเป็นส่วนใหญ่ จนถึงขณะนี้
เพื่อเติมเต็มช่องว่างความรู้นี้ นักวิจัยได้ใช้การทดสอบ Montreal Cognitive Assessment (MoCA) เพื่อประเมินความสามารถด้านการรับรู้ของ LLM ชั้นนำที่เผยแพร่ต่อสาธารณะในปัจจุบัน ซึ่งรวมถึง ChatGPT4 และ 4o ที่พัฒนาโดย OpenAI, Claude3.5 "Sonnet" ที่พัฒนาโดย Anthropic และ Gemini1 และ 1.5 พัฒนาโดยอัลฟาเบ็ต
การทดสอบ MoCA ใช้กันอย่างแพร่หลายเพื่อตรวจหาสัญญาณของความบกพร่องทางสติปัญญาและภาวะสมองเสื่อมในระยะเริ่มแรก มักเกิดในผู้สูงอายุ โดยจะประเมินความสามารถที่หลากหลาย รวมถึงความสนใจ ความจำ ทักษะทางภาษา ทักษะด้านการมองเห็น และหน้าที่ของผู้บริหารผ่านชุดงานและคำถามสั้นๆ คะแนนสูงสุดคือ 30 คะแนน และโดยทั่วไปแล้วคะแนนตั้งแต่ 26 ขึ้นไปถือว่าเป็นเรื่องปกติ
นักวิจัยได้ให้คำแนะนำเกี่ยวกับงาน LLM เหมือนกับคำแนะนำที่ให้กับผู้ป่วยที่เป็นมนุษย์ การให้คะแนนเป็นไปตามแนวทางอย่างเป็นทางการและได้รับการประเมินโดยนักประสาทวิทยาฝึกหัด
ในการทดสอบ MoCA นั้น ChatGPT4o ได้คะแนนสูงสุด (26 จาก 30 คะแนน) ตามมาด้วย ChatGPT4 และ Claude (25 จาก 30 คะแนน) และ Gemini1.0 ได้คะแนนต่ำสุด (16 จาก 30 คะแนน)
แชทบอททั้งหมดทำงานได้ไม่ดีในด้านทักษะการมองเห็นและอวกาศ และทำงานต่างๆ เช่น การทดสอบการเชื่อมต่อ (การเชื่อมต่อตัวเลขและตัวอักษรในวงกลมตามลำดับจากน้อยไปมาก) และการทดสอบการวาดภาพนาฬิกา (การวาดหน้าปัดนาฬิกาแสดงเวลาที่กำหนด) แบบจำลองราศีเมถุนล้มเหลวในการทำงานเรียกคืนล่าช้า (จดจำลำดับคำห้าคำ)
แชทบอททั้งหมดทำงานได้ดีในงานอื่นๆ ส่วนใหญ่ รวมถึงการตั้งชื่อ ความสนใจ ภาษา และนามธรรม
อย่างไรก็ตาม ในการทดสอบภาพและอวกาศเพิ่มเติม แชทบอทไม่สามารถแสดงความเห็นอกเห็นใจหรือตีความฉากภาพที่ซับซ้อนได้อย่างแม่นยำ มีเพียง ChatGPT4o เท่านั้นที่ประสบความสำเร็จในระยะความไม่ลงรอยกันของการทดสอบ Stroop ซึ่งใช้ชื่อสีและสีแบบอักษรผสมกันเพื่อวัดว่าการรบกวนส่งผลต่อเวลาตอบสนองอย่างไร
สิ่งเหล่านี้เป็นผลจากการสังเกต และนักวิจัยรับทราบว่ามีความแตกต่างพื้นฐานระหว่างสมองมนุษย์กับแบบจำลองภาษาขนาดใหญ่
อย่างไรก็ตาม พวกเขาตั้งข้อสังเกตว่าแบบจำลองภาษาขนาดใหญ่ทั้งหมดล้มเหลวอย่างต่อเนื่องในงานที่ต้องใช้การมองเห็นเชิงนามธรรมและการทำงานของผู้บริหาร โดยเน้นถึงจุดอ่อนที่สำคัญที่อาจขัดขวางการใช้งานในสถานพยาบาล
ดังนั้น พวกเขาจึงสรุปว่า "ไม่เพียงแต่นักประสาทวิทยาไม่น่าจะถูกแทนที่ด้วยแบบจำลองภาษาขนาดใหญ่ในระยะสั้น แต่การค้นพบของเราชี้ให้เห็นว่าในไม่ช้าพวกเขาอาจจะพบว่าตัวเองกำลังรักษาผู้ป่วยเสมือนรายใหม่ - แบบจำลองปัญญาประดิษฐ์ทางปัญญาที่เกิดขึ้นใหม่ของอุปสรรค"
โดยรวมแล้ว งานวิจัยนี้ได้ส่งสัญญาณเตือนภัยสำหรับการประยุกต์ใช้ปัญญาประดิษฐ์ในสาขาการแพทย์ โดยเตือนเราว่าอย่ามองโลกในแง่ดีอย่างสุ่มสี่สุ่มห้า แต่เพื่อให้มีความเข้าใจที่ชัดเจนเกี่ยวกับข้อจำกัดของ AI และสำรวจวิธีการใช้งานที่ปลอดภัยและเชื่อถือได้เพิ่มเติม ในอนาคตการชดเชยความบกพร่องในความสามารถทางปัญญาของ AI จะเป็นทิศทางสำคัญในการพัฒนาปัญญาประดิษฐ์