Pelatihan dan optimalisasi model bahasa skala besar (LLM) merupakan tantangan utama di bidang kecerdasan buatan. Metode pelatihan yang efisien tidak hanya perlu memastikan kinerja model, namun juga memastikan bahwa model tersebut konsisten dengan nilai-nilai kemanusiaan. Pembelajaran penguatan dengan umpan balik manusia (RLHF), sebagai metode pelatihan LLM yang efektif, telah banyak digunakan dalam beberapa tahun terakhir, namun efisiensi dan skalabilitasnya masih perlu ditingkatkan. Untuk tujuan ini, Tim Model Besar ByteDance Doubao telah membuat kerangka kerja RLHF bersumber terbuka yang disebut HybridFlow, yang bertujuan untuk mengatasi keterbatasan kerangka kerja RLHF tradisional dan membawa terobosan baru pada pelatihan LLM.
RLHF biasanya terdiri dari tiga tahap: pertama, model aktor menghasilkan teks sesuai dengan petunjuk masukan; kemudian, model kritik, model referensi, dan model penghargaan mengevaluasi teks yang dihasilkan dan menghitung nilai yang sesuai, probabilitas referensi, dan nilai penghargaan; hasil evaluasi digunakan untuk melatih model aktor untuk menghasilkan teks yang lebih sesuai dengan preferensi manusia. Kerangka kerja RLHF tradisional biasanya mengadopsi pengontrol tunggal untuk mengelola seluruh aliran data, namun hal ini tidak efisien untuk LLM yang memerlukan komputasi terdistribusi.
Kerangka kerja HybridFlow secara inovatif menggabungkan mode pengontrol tunggal dan multi-pengontrol serta memisahkan penghitungan kompleks dan ketergantungan data melalui desain API berlapis untuk mencapai representasi yang fleksibel dan eksekusi aliran data RLHF yang efisien.
Keunggulan HybridFlow terutama tercermin dalam tiga aspek berikut:
Dukungan fleksibel untuk beberapa algoritma dan model RLHF: HybridFlow menyediakan API modular sehingga pengguna dapat dengan mudah mengimplementasikan dan memperluas berbagai algoritma RLHF, seperti PPO, ReMax, dan Safe-RLHF.
Reorganisasi bobot model yang efisien: Komponen 3D-HybridEngine mendukung reorganisasi bobot model model aktor yang efisien selama tahap pelatihan dan pembuatan, meminimalkan redundansi memori dan overhead komunikasi.
Penerapan model otomatis dan pemilihan strategi paralel: Komponen Pemetaan Otomatis dapat secara otomatis memetakan model ke perangkat yang berbeda berdasarkan beban model dan ketergantungan data, dan memilih strategi paralel terbaik, sehingga menyederhanakan proses penerapan model dan meningkatkan efisiensi pelatihan.
Hasil eksperimen menunjukkan bahwa throughput HybridFlow meningkat secara signifikan ketika menjalankan berbagai algoritma RLHF, hingga 20,57 kali lipat. HybridFlow yang bersifat open source akan menyediakan alat yang ampuh untuk penelitian dan pengembangan RLHF serta mendorong pengembangan teknologi LLM di masa depan.
Alamat makalah: https://arxiv.org/pdf/2409.19256
Editor Downcodes menyimpulkan: Kerangka kerja HybridFlow sumber terbuka memberikan ide dan alat baru untuk pelatihan model bahasa skala besar. Efisiensi dan fleksibilitasnya diharapkan dapat mendorong pengembangan lebih lanjut teknologi LLM dan patut mendapat perhatian dan penelitian mendalam . Kami berharap dapat melihat lebih banyak aplikasi inovatif berdasarkan HybridFlow di masa depan.