Nous Research sedang melakukan eksperimen terobosan: menggunakan mesin yang didistribusikan secara global untuk melakukan pra-pelatihan model bahasa besar (LLM) dengan 1,5 miliar parameter. Eksperimen ini merongrong model pelatihan tradisional yang terpusat, menghindari pusat data yang mahal dan memakan energi, dan menyiarkan proses pelatihan secara real-time melalui situs webnya distro.nousresearch.com, yang menunjukkan kinerja model dan peta lokasi perangkat keras. Langkah ini tidak hanya mengurangi biaya pelatihan, namun yang lebih penting, hal ini diharapkan dapat menurunkan hambatan masuk bagi model bahasa besar, sehingga memungkinkan lebih banyak tim kecil dan individu untuk berpartisipasi dalam penelitian dan pengembangan AI generatif.
Di bidang AI generatif yang berkembang pesat, tim Nous Research melakukan eksperimen unik: mereka menggunakan mesin yang didistribusikan di seluruh dunia untuk melakukan pra-pelatihan model bahasa besar (LLM) dengan 1,5 miliar parameter, sebuah proses yang menghindari kebutuhan tradisional yang terpusat. pengembangan di pusat data atau superkluster yang mahal dan haus daya.
Nous Research juga menyiarkan proses pra-pelatihan secara langsung di situs web khusus distro.nousresearch.com, menunjukkan kinerja model pada berbagai tolok ukur evaluasi secara real-time, dan menyediakan peta lokasi perangkat keras yang berpartisipasi dalam pelatihan, yang mencakup beberapa lokasi di Amerika Serikat dan Eropa. Pada saat artikel ini diterbitkan, waktu yang tersisa untuk pra-pelatihan adalah sekitar 57 jam (yaitu 2,3 hari), dan lebih dari 75% kemajuan pelatihan telah diselesaikan.
Pra-pelatihan adalah langkah pertama dan paling dasar dalam pelatihan LLM, yang melibatkan pelatihan sejumlah besar data teks untuk mempelajari sifat statistik dan struktur bahasa. Pada tahap ini, model menangkap pola bahasa, sintaksis, dan hubungan kontekstual antar kata dengan memproses kumpulan data teks yang luas. Proses ini memberi model pemahaman bahasa yang luas, kemampuan untuk menghasilkan teks yang koheren, dan melakukan berbagai tugas terkait bahasa. Setelah pra-pelatihan, model tersebut juga perlu disesuaikan untuk tugas atau domain tertentu.
Jika rencana ini berhasil, Nous Research akan membuktikan bahwa LLM mutakhir masih dapat dilatih tanpa super cluster yang mahal atau transmisi latensi rendah, sehingga menandai era baru pelatihan AI terdistribusi. Pendekatan pelatihan sumber terbuka ini dapat mengubah dinamika kekuatan AI generatif, membuat tim yang lebih kecil dan aktor non-korporat menjadi lebih kompetitif di bidang ini.
Teknologi baru yang digunakan Nous disebut Nous DisTrO (Distributed Training Over-the-Internet), yang dirancang untuk mengurangi kebutuhan bandwidth komunikasi antar GPU selama proses pra-pelatihan. Menurut rilis terbaru dari Nous Research, DisTrO dapat mengurangi kebutuhan komunikasi hingga 10.000 kali lipat, memungkinkan tingkat konvergensi yang kompetitif dan kurva kerugian dipertahankan melalui koneksi Internet yang lebih lambat dan lebih terjangkau.
Selain itu, terobosan inti DisTrO adalah secara efektif mengompresi jumlah data yang dipertukarkan antar GPU tanpa memengaruhi performa model. Teknologi ini dibangun berdasarkan algoritma Decoupled Momentum Optimization (DeMo) sebelumnya, yang juga bertujuan untuk secara signifikan mengurangi kebutuhan komunikasi antar-GPU sekaligus menjaga performa pelatihan.
Dari segi perangkat keras, proses pra-pelatihan Nous Research didukung oleh banyak mitra ternama seperti Oracle, Lambda Labs, Northern Data Group, Crusoe Cloud, dan Andromeda Cluster, yang bersama-sama menyediakan perangkat keras heterogen yang diperlukan untuk sepenuhnya menguji DisTrO dalam distribusi sebenarnya. sistem.kemampuan dalam lingkungan.
Pintu masuk blog: https://nousresearch.com/
Eksperimen yang dilakukan oleh Nous Research ini tidak hanya membuat terobosan dalam teknologi, tetapi yang lebih penting, eksperimen ini memberikan ide dan kemungkinan baru bagi para peneliti AI di seluruh dunia, yang menandai perubahan dalam model pelatihan AI. Di masa depan, mungkin akan ada lebih banyak proyek pelatihan terdistribusi serupa yang akan semakin menurunkan ambang masuk teknologi AI dan mendorong perkembangan pesat di bidang AI.