Sebuah tim peneliti dari Universitas Peking dan Universitas Sains dan Teknologi Hong Kong telah membuat terobosan yang menarik. Mereka mengembangkan metode pelatihan inovatif dan berhasil meningkatkan kinerja model ahli medis berukuran 8B ke level GPT-4. Penelitian ini tidak hanya memperkenalkan konsep baru "kesenjangan stabilitas" untuk menjelaskan fenomena fluktuasi kinerja model bahasa besar selama pra-pelatihan berkelanjutan, namun yang lebih penting, mereka mengusulkan tiga strategi efektif untuk memecahkan masalah ini, dan menjadikan sumber terbuka Model Llama-3-Physician-8B, membawa kemajuan revolusioner di bidang AI medis. Performa model dalam tugas menjawab pertanyaan medis bahkan melampaui model sumber terbuka dengan ukuran yang sama dan mendekati level GPT-4, yang menunjukkan potensi besar AI medis.
Pertama, mereka menemukan bahwa selama proses pra-pelatihan yang berkelanjutan, performa model di domain target pertama-tama akan menurun dan kemudian meningkat, dan hal ini sama menariknya dengan roller coaster. Untuk mengatasi masalah ini, mereka mengusulkan tiga strategi. Yang pertama adalah melakukan beberapa putaran pra-pelatihan pada subkumpulan data dengan ukuran yang sesuai, yang dapat memulihkan performa lebih cepat dibandingkan satu putaran pra-pelatihan pada kumpulan data yang besar. Yang kedua adalah memilih sub-korpus dengan kualitas terbaik untuk beberapa putaran pra-pelatihan. Terakhir, menggabungkan data untuk memperkirakan distribusi data terlatih dapat membuat model lebih stabil.
Strategi-strategi ini telah mencapai hasil yang luar biasa dalam pra-pelatihan berkelanjutan dan penyempurnaan instruksi di bidang medis, meningkatkan efek dan mengurangi jumlah perhitungan. Selain itu, model open source Llama-3-Physician-8B sudah tersedia di HuggingFace.
Pentingnya penelitian ini lebih dari itu. Mereka juga menemukan bahwa dengan strategi ini, model OpenLLaMa hanya perlu dilatih pada 5 miliar data berkualitas tinggi selama 4 periode agar dapat secara signifikan melampaui semua data dasar dalam tugas medis. Hal ini tidak hanya meningkatkan kinerja, namun juga sangat mengurangi konsumsi sumber daya komputasi.
Yang lebih mengesankan lagi adalah performa model insturct Llama-3-Physician-8B pada tugas menjawab pertanyaan medis tidak hanya lebih baik dibandingkan model sumber terbuka lainnya dengan ukuran yang sama, bahkan melampaui model sumber tertutup GPT-3.5 dan mendekati level GPT-4. Ini hanyalah sebuah revolusi di bidang medis.
Penelitian ini tidak hanya memberi kita metode pelatihan baru, tetapi juga memungkinkan kita melihat potensi besar model bahasa besar di bidang medis. Melalui pra-pelatihan dan penyempurnaan instruksi yang berkelanjutan, kami dapat membuat model mencapai performa yang lebih tinggi di area tertentu sekaligus mengurangi biaya komputasi. Tidak diragukan lagi, ini merupakan keuntungan besar bagi industri medis.
Studi ini juga mengingatkan kita bahwa pelatihan model bahasa besar tidak dapat dicapai dalam semalam, namun memerlukan optimasi dan penyesuaian yang berkelanjutan. Dengan memperkenalkan konsep "kesenjangan stabilitas", kita dapat lebih memahami dan memecahkan masalah dalam pelatihan model, sehingga model dapat memainkan peran yang lebih besar dalam bidang tertentu. Ini bukan hanya terobosan teknologi, tapi juga wawasan mendalam mengenai industri medis.
Tautan makalah: https://arxiv.org/abs/2406.14833
Alamat sumber terbuka: https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct
Hasil penelitian ini menunjukkan arah pengembangan bidang AI medis dan juga memberikan pengalaman berharga untuk pelatihan model di bidang lain. Di masa depan, dengan kemajuan teknologi yang berkelanjutan, kita berharap penerapan model bahasa besar di bidang medis akan lebih luas dan mendalam, sehingga memberikan kontribusi yang lebih besar bagi kesehatan manusia.