Tim peneliti dari Universitas Cina Hong Kong (Shenzhen) dan Shenzhen Big Data Research Institute baru-baru ini meluncurkan model bahasa skala besar medis (LLM) yang disebut Huatuogpt-O1 ini. Langkah penting. Dirancang untuk penalaran kompleks di bidang medis, model ini bertujuan untuk meningkatkan keakuratan dan keandalan diagnosis medis dan pengambilan keputusan. Berbeda dengan LLM yang berfokus pada penalaran matematika di masa lalu, Hituatuogpt-O1 berfokus pada bidang perawatan medis khusus, dan telah membuka jalan baru untuk pengembangan AI medis dengan mensimulasikan proses pemikiran yang ketat dari dokter dalam pekerjaan yang sebenarnya.
Tantangan utama yang dihadapi tim peneliti dalam proses pengembangan adalah bahwa proses penalaran di bidang medis sering kali tidak memiliki langkah yang jelas dan sulit diverifikasi. Untuk mengatasi masalah ini, mereka memilih 40.000 pertanyaan sulit dengan jawaban yang unik dan objektif dari bank pertanyaan pemeriksaan medis dan mengubahnya menjadi pertanyaan terbuka untuk membangun serangkaian pertanyaan medis yang dapat diverifikasi. Pertanyaan-pertanyaan ini tidak hanya memerlukan model untuk melakukan penalaran mendalam, tetapi juga memverifikasi kebenaran proses inferensi melalui jawaban yang benar atau salah, sehingga memberikan dukungan data yang andal untuk pelatihan model.
Untuk meningkatkan kemampuan penalaran model, tim peneliti mengadopsi metode pelatihan dua tahap. Pada fase pertama, mereka menggunakan umpan balik validator (benar atau salah) untuk memandu model pencarian berbasis kebijakan, menghasilkan lintasan inferensi yang kompleks. Model pertama menginisialisasi rantai pemikiran (COT). Jika validator percaya bahwa COT saat ini salah, model akan mencoba untuk mundur, mengeksplorasi jalur baru, memverifikasi atau strategi yang benar sampai jawaban yang benar ditemukan. Lintasan penalaran yang sukses ini kemudian digunakan untuk menyempurnakan LLM untuk memberikan kemampuan penalaran yang kompleks dari refleksi iteratif. Pada fase kedua, tim peneliti menggunakan hadiah jarang yang disediakan oleh validator untuk lebih meningkatkan kemampuan penalaran model yang kompleks melalui algoritma pembelajaran penguatan (RL).
Hasil eksperimen menunjukkan bahwa metode pelatihan dua tahap ini telah mencapai hasil yang signifikan. Menggunakan hanya 40.000 pertanyaan yang dapat diverifikasi, model dengan 8 miliar parameter mencapai peningkatan 8,5 poin dalam tolok ukur medis. Model parameter 70 miliar juga melampaui LLMs open source umum dan spesifik medis lainnya dalam berbagai tolok ukur medis. Hasil ini tidak hanya mengkonfirmasi efektivitas penalaran kompleks dalam menyelesaikan masalah medis, tetapi juga menunjukkan peran penting pembelajaran penguatan dalam meningkatkan kinerja model.
HUatuogpt-O1 inovatif karena menggunakan masalah medis yang dapat diverifikasi dan validator medis untuk pertama kalinya untuk meningkatkan kemampuan penalaran kompleks medis LLM. Dengan pendekatan ini, model dapat berpikir dalam seperti dokter dan melakukan pemeriksaan diri dan koreksi sebelum memberikan jawaban. Ini tidak hanya meningkatkan potensi aplikasi model di bidang medis, tetapi juga memberikan referensi untuk meningkatkan kemampuan penalaran di bidang profesional lainnya.
Untuk lebih memverifikasi keandalan model, para peneliti menggunakan GPT-4O sebagai validator, dan hasilnya menunjukkan bahwa tingkat akurasinya mencapai 96,5% pada fase pertama dan 94,5% pada fase kedua. Pada saat yang sama, mereka juga mengkonfirmasi bahwa validator berbasis LLM lebih dapat diandalkan daripada metode pencocokan tradisional yang tepat. Selain itu, para peneliti menerapkan metode ini ke bidang medis Tiongkok, dan juga mencapai hasil yang luar biasa, menunjukkan kemampuan beradaptasi dari metode ini di berbagai bidang dan lingkungan bahasa.
Secara keseluruhan, kemunculan Huatuogpt-O1 menandai kemajuan yang signifikan dalam AI medis dalam penalaran yang kompleks. Ini tidak hanya menyediakan alat yang lebih andal untuk diagnosis medis dan pengambilan keputusan, tetapi juga memberikan ide-ide baru untuk penerapan AI di masa depan di bidang profesional lainnya. Meskipun model ini masih dalam tahap penelitian dan tidak dapat diterapkan langsung pada praktik klinis, potensi besarnya telah menarik perhatian luas dan diharapkan memainkan peran yang lebih besar di bidang medis di masa depan.
Alamat kertas: https://arxiv.org/pdf/2412.18925