Masalah efisiensi dan konsumsi energi dari pelatihan model besar menjadi semakin menonjol, dan pengoptimal AdamW tradisional tidak mampu mengatasi skala model yang besar. Untuk mengatasi masalah ini, tim yang seluruhnya berasal dari Tiongkok mengusulkan pengoptimal baru yang disebut C-AdamW (Crudent AdamW). Ide inti C-AdamW adalah "berpikir sebelum bertindak". Dengan mengidentifikasi arah pembaruan secara akurat, model dapat menghindari pemborosan sumber daya pada jalur yang salah, sehingga meningkatkan kecepatan pelatihan dan mengurangi konsumsi energi. Pengoptimal ini meningkatkan kecepatan pelatihan hingga 1,47x dalam pra-pelatihan Llama dan MAE hampir tanpa overhead komputasi tambahan dan dapat dicapai dengan modifikasi sederhana pada kode yang ada.
Dalam dunia AI, "Kekuatan dapat menghasilkan keajaiban" tampaknya menjadi aturan utama. Semakin besar modelnya, semakin banyak datanya, dan semakin kuat daya komputasinya, tampaknya semakin dekat model tersebut dengan Cawan Suci kecerdasan. Namun, di balik perkembangan pesat tersebut, terdapat juga tekanan besar pada biaya dan konsumsi energi.
Untuk membuat pelatihan AI lebih efisien, para ilmuwan telah mencari pengoptimal yang lebih canggih, seperti pelatih, untuk memandu parameter model agar terus dioptimalkan dan pada akhirnya mencapai kondisi terbaik. AdamW, sebagai pengoptimal default untuk pra-pelatihan Transformer, telah menjadi tolok ukur industri selama bertahun-tahun. Namun, dalam menghadapi skala model yang semakin besar, AdamW juga mulai terlihat tidak mampu mengatasi kemampuannya.
Adakah cara untuk meningkatkan kecepatan latihan sekaligus mengurangi konsumsi energi? Jangan khawatir, tim yang seluruhnya berasal dari Tiongkok hadir dengan "senjata rahasia" mereka C-AdamW!
Nama lengkap C-AdamW adalah Cautious AdamW, dan nama Cinanya adalah "Cautious AdamW". Bukankah kedengarannya sangat "Buddha"? Ya, ide inti dari C-AdamW adalah "berpikir sebelum bertindak".
Bayangkan parameter modelnya seperti sekelompok anak energik yang selalu ingin berlarian. AdamW seperti seorang guru yang berdedikasi, mencoba membimbing mereka ke arah yang benar. Namun terkadang, anak terlalu bersemangat dan berlari ke arah yang salah sehingga membuang-buang waktu dan tenaga.
Saat ini, C-AdamW seperti seorang tetua yang bijak, memakai sepasang "mata berapi-api" yang dapat secara akurat mengidentifikasi apakah arah pembaruan sudah benar. Jika arahnya salah, C-AdamW dengan tegas akan berhenti untuk mencegah model tersebut melaju lebih jauh ke jalan yang salah.
Strategi "hati-hati" ini memastikan bahwa setiap pembaruan dapat secara efektif mengurangi fungsi kerugian, sehingga mempercepat konvergensi model. Hasil eksperimen menunjukkan bahwa C-AdamW meningkatkan kecepatan latihan menjadi 1,47 kali lipat pada pra-latihan Llama dan MAE!
Lebih penting lagi, C-AdamW hampir tidak memerlukan overhead komputasi tambahan dan dapat diimplementasikan dengan modifikasi satu baris sederhana dari kode yang ada. Artinya, pengembang dapat dengan mudah menerapkan C-AdamW ke berbagai pelatihan model dan menikmati "kecepatan dan semangat"!
Aspek "Buddha" dari C-AdamW adalah mempertahankan fungsi Hamiltonian Adam dan tidak merusak jaminan konvergensi berdasarkan analisis Lyapunov. Artinya C-AdamW tidak hanya lebih cepat, tetapi kestabilannya juga terjamin, dan tidak akan ada masalah seperti training crash.
Tentu saja, “Buddha” tidak berarti “tidak giat”. Tim peneliti menyatakan bahwa mereka akan terus mengeksplorasi fungsi ϕ yang lebih kaya dan menerapkan masker di ruang fitur daripada ruang parameter untuk lebih meningkatkan kinerja C-AdamW.
Dapat diperkirakan bahwa C-AdamW akan menjadi favorit baru di bidang pembelajaran mendalam, membawa perubahan revolusioner pada pelatihan model besar!
Alamat makalah: https://arxiv.org/abs/2411.16085
GitHub:
https://github.com/kyleliang919/C-Optim
Kemunculan C-AdamW memberikan cara berpikir baru untuk memecahkan masalah efisiensi dan konsumsi energi dari pelatihan model besar. Efisiensinya yang tinggi dan biaya yang rendah membuatnya memiliki prospek penerapan yang luas, dan patut dinantikan untuk pengembangannya di masa depan bidang pembelajaran mendalam.