Sebuah studi baru dari Harvard Medical School dan Stanford University menunjukkan bahwa sistem kecerdasan buatan o1-preview OpenAI berkinerja baik dalam mendiagnosis kasus medis yang kompleks dan bahkan mungkin melampaui dokter manusia. Studi ini menguji o1-preview secara komprehensif, dan hasilnya mengesankan, dengan akurasi dan kemampuan penalaran medis yang secara signifikan mengungguli model sebelumnya dan mengungguli dokter dan dokter berpengalaman. Penelitian ini memberikan arah baru bagi penerapan kecerdasan buatan di bidang medis, dan juga memicu diskusi mengenai isu etika dan praktis penerapan kecerdasan buatan dalam praktik medis.
Sistem kecerdasan buatan pratinjau o1 OpenAI mungkin lebih baik daripada dokter manusia dalam mendiagnosis kasus medis yang kompleks, sebuah studi baru menunjukkan. Tim peneliti dari Harvard Medical School dan Stanford University melakukan tes diagnostik medis komprehensif pada o1-preview, dan hasilnya menunjukkan bahwa sistem telah meningkat secara signifikan dibandingkan versi sebelumnya.
Berdasarkan hasil penelitian, o1-preview mencapai tingkat diagnosis yang benar sebesar 78,3% di antara semua kasus yang diuji. Dalam perbandingan langsung terhadap 70 kasus tertentu, tingkat diagnosis akurat sistem ini mencapai 88,6%, jauh melampaui 72,9% pendahulunya GPT-4. Dari segi alasan medis, kinerja o1-preview juga sama mengesankannya. Dengan menggunakan skala R-IDEA, standar penilaian kualitas penalaran medis, sistem AI mendapat skor sempurna 78 dari 80 kasus. Sebagai perbandingan, dokter berpengalaman mencapai nilai sempurna hanya dalam 28 kasus, dan dokter spesialis mencapai nilai sempurna hanya dalam 16 kasus.
Para peneliti juga mengakui bahwa o1-preview mungkin telah menyertakan beberapa kasus uji dalam data pelatihan. Namun, ketika mereka menguji sistem pada kasus-kasus baru, kinerjanya hanya turun sedikit. Dr Adam Rodman, salah satu penulis penelitian, menekankan bahwa meskipun ini adalah penelitian patokan, hasilnya memiliki implikasi penting bagi praktik medis.
o1-pratinjau berkinerja sangat baik ketika menangani kasus manajemen kompleks yang dirancang khusus oleh 25 ahli. “Manusia tidak berdaya menghadapi permasalahan ini, namun kinerja O1 luar biasa,” jelas Rodman. Dalam kasus-kasus kompleks ini, o1-preview mencapai skor 86%, sementara dokter yang menggunakan GPT-4 hanya mencapai 41%, dan alat tradisional hanya mencapai 34%.
Namun, o1-preview bukannya tanpa kekurangan. Dalam hal penilaian probabilitas, kinerja sistem tidak meningkat secara signifikan. Misalnya, ketika menilai kemungkinan pneumonia, pratinjau o1 memberikan perkiraan sebesar 70%, yang jauh di atas kisaran ilmiah yaitu 25%-42%. Para peneliti menemukan bahwa o1-preview bekerja dengan baik pada tugas-tugas yang memerlukan pemikiran kritis, namun gagal dalam tantangan yang lebih abstrak, seperti memperkirakan probabilitas.
Selain itu, o1-preview sering kali memberikan jawaban mendetail, yang mungkin meningkatkan peringkatnya. Namun, penelitian tersebut hanya berfokus pada o1-preview yang bekerja sendiri dan tidak mengevaluasi efeknya jika bekerja sama dengan dokter. Beberapa kritikus menunjukkan bahwa tes diagnostik yang disarankan oleh o1-preview seringkali mahal dan tidak praktis.
Meskipun OpenAI telah merilis versi baru o1 dan o3 dan bekerja dengan baik pada tugas inferensi yang kompleks, model yang lebih kuat ini masih gagal menyelesaikan masalah aplikasi praktis dan biaya yang dikemukakan oleh para kritikus. Rodman meminta para peneliti memerlukan cara yang lebih baik untuk mengevaluasi sistem AI medis guna menangkap kompleksitas dalam keputusan medis di kehidupan nyata. Ia menegaskan, penelitian ini tidak dimaksudkan untuk menggantikan dokter, dan pengobatan medis sebenarnya masih memerlukan partisipasi manusia.
Makalah: https://arxiv.org/abs/2412.10849
Menyorot:
o1-pratinjau melampaui dokter dalam tingkat diagnosis, mencapai tingkat akurasi 88,6%.
Dari segi alasan medis, o1-preview mencapai 78 nilai sempurna dari 80 kasus, jauh melebihi kinerja dokter.
Meskipun kinerjanya luar biasa, biaya tinggi o1-preview dan rekomendasi pengujian yang tidak realistis dalam aplikasi praktis masih perlu diatasi.
Secara keseluruhan, penelitian ini menunjukkan potensi besar kecerdasan buatan dalam bidang diagnosis medis, namun juga mengingatkan kita bahwa kita perlu berhati-hati dalam penerapan AI dalam praktik medis dan lebih memperhatikan keterbatasan serta potensi risikonya penelitian dan peningkatan diperlukan di masa depan untuk memastikan bahwa AI dapat membantu pekerjaan medis dengan aman dan efektif serta melayani kesehatan manusia dengan lebih baik.