Sebuah studi baru-baru ini yang menguji model bahasa besar (LLM) terkemuka di Montreal Cognitive Assessment (MoCA) menunjukkan bahwa model AI ini menunjukkan gangguan kognitif yang serupa dengan pasien demensia tahap awal selama pengujian. Penelitian yang diterbitkan dalam British Medical Journal edisi khusus Natal ini telah memicu pemikiran ulang tentang prospek penerapan AI di bidang medis, terutama dalam tugas-tugas yang memerlukan kemampuan visuospasial dan fungsi eksekutif, di mana keterbatasan AI telah terungkap. Hasil penelitian ini menantang pandangan bahwa AI akan menggantikan dokter manusia dan mengangkat topik baru untuk pengembangan lebih lanjut AI dalam aplikasi klinis.
Sebuah studi baru menunjukkan bahwa model kecerdasan buatan terbaik menunjukkan gangguan kognitif yang mirip dengan gejala demensia tahap awal ketika diuji dengan Montreal Cognitive Assessment (MoCA). Temuan ini menyoroti keterbatasan kecerdasan buatan dalam aplikasi klinis, terutama dalam tugas-tugas yang memerlukan keterampilan visual dan eksekutif.
Sebuah studi yang diterbitkan dalam edisi khusus Natal The BMJ menemukan bahwa hampir semua model bahasa berskala besar, atau "chatbots", berkinerja lebih baik ketika menggunakan tes penilaian yang biasa digunakan untuk mendeteksi tanda-tanda demensia tahap awal.
Studi ini juga menemukan bahwa versi lama dari chatbot ini, seperti halnya pasien manusia lanjut usia, memiliki kinerja yang lebih buruk dalam pengujian. Para peneliti yakin temuan ini “menantang asumsi bahwa kecerdasan buatan akan segera menggantikan dokter manusia.”
Kemajuan terbaru dalam kecerdasan buatan telah memicu kegembiraan dan kekhawatiran tentang apakah chatbots akan melampaui dokter manusia dalam tugas medis.
Meskipun penelitian sebelumnya telah menunjukkan bahwa model bahasa besar (LLM) bekerja dengan baik pada berbagai tugas diagnostik medis, apakah model tersebut rentan terhadap gangguan kognitif mirip manusia seperti penurunan kognitif masih belum diselidiki—hingga saat ini.
Untuk mengisi kesenjangan pengetahuan ini, para peneliti menggunakan tes Montreal Cognitive Assessment (MoCA) untuk mengevaluasi kemampuan kognitif LLM terkemuka yang saat ini tersedia untuk umum, termasuk ChatGPT4 dan 4o yang dikembangkan oleh OpenAI, Claude3.5 "Sonnet" yang dikembangkan oleh Anthropic, dan Gemini1 dan 1.5 dikembangkan oleh Alfabet.
Tes MoCA banyak digunakan untuk mendeteksi tanda-tanda gangguan kognitif dan demensia dini, sering kali terjadi pada orang lanjut usia. Melalui serangkaian tugas dan pertanyaan singkat, ia menilai berbagai kemampuan termasuk perhatian, memori, keterampilan bahasa, keterampilan visuospasial, dan fungsi eksekutif. Skor maksimumnya adalah 30 poin, dan 26 poin atau lebih umumnya dianggap normal.
Para peneliti memberikan instruksi tugas LLM yang identik dengan yang diberikan kepada pasien manusia. Penilaian mengikuti pedoman resmi dan dinilai oleh ahli saraf yang berpraktik.
Pada tes MoCA, ChatGPT4o meraih skor tertinggi (26 dari 30 poin), diikuti oleh ChatGPT4 dan Claude (25 dari 30 poin), dan Gemini1.0 mendapatkan skor terendah (16 dari 30 poin).
Semua chatbot berkinerja buruk dalam keterampilan visual-spasial dan melakukan tugas-tugas seperti tes koneksi (menghubungkan angka dan huruf yang dilingkari dalam urutan menaik) dan tes menggambar jam (menggambar tampilan jam yang menunjukkan waktu tertentu). Model Gemini gagal dalam tugas mengingat yang tertunda (mengingat rangkaian lima kata).
Semua chatbot bekerja dengan baik pada sebagian besar tugas lainnya termasuk penamaan, perhatian, bahasa, dan abstraksi.
Namun, dalam pengujian visual-spasial lebih lanjut, chatbot tidak mampu menunjukkan empati atau menafsirkan adegan visual kompleks secara akurat. Hanya ChatGPT4o yang berhasil dalam fase ketidaksesuaian uji Stroop, yang menggunakan kombinasi nama warna dan warna font untuk mengukur pengaruh interferensi terhadap waktu reaksi.
Ini adalah temuan observasi, dan para peneliti mengakui bahwa ada perbedaan mendasar antara otak manusia dan model bahasa skala besar.
Namun, mereka mencatat bahwa semua model bahasa skala besar secara konsisten gagal dalam tugas-tugas yang memerlukan abstraksi visual dan fungsi eksekutif, sehingga menyoroti kelemahan penting yang mungkin menghalangi penggunaannya dalam pengaturan klinis.
Hasilnya, mereka menyimpulkan: “Tidak hanya ahli saraf yang kemungkinan besar tidak akan tergantikan oleh model bahasa besar dalam jangka pendek, temuan kami juga menunjukkan bahwa mereka akan segera merawat pasien virtual baru – Model Kendala Kecerdasan Buatan kognitif yang sedang berkembang.”
Secara keseluruhan, penelitian ini telah menjadi peringatan bagi penerapan kecerdasan buatan di bidang medis, mengingatkan kita bahwa kita tidak bisa terlalu optimis dan perlu memiliki pemahaman yang jelas tentang keterbatasan AI dan mengeksplorasi lebih jauh keamanan dan keselamatan AI. metode aplikasi yang dapat diandalkan. Di masa depan, cara mengatasi kekurangan kemampuan kognitif AI akan menjadi arah penting bagi pengembangan kecerdasan buatan.