NVIDIA baru-baru ini membuka dua model baru: Nemotron-4-Minitron-4B dan Nemotron-4-Minitron-8B, yang membuat terobosan signifikan dalam efisiensi pelatihan. Melalui pemangkasan terstruktur dan teknologi distilasi pengetahuan, data yang diperlukan untuk pelatihan kedua model ini telah dikurangi 40 kali, dan biaya daya komputasi telah berkurang sebesar 1,8 kali. Ini tidak hanya merupakan lompatan dalam teknologi AI, tetapi juga membawa kemungkinan baru ke bidang AI, dan telah menyumbangkan sumber daya berharga bagi komunitas AI.
Pelatihan model AI tradisional membutuhkan banyak data dan komposisi. Namun, NVIDIA telah secara signifikan mengurangi permintaan ini dengan menggunakan pemangkasan terstruktur dan distilasi pengetahuan. Secara khusus, dibandingkan dengan pelatihan dari awal, data token pelatihan yang diperlukan untuk model baru telah berkurang 40 kali, dan biaya daya komputasi telah menghemat 1,8 kali. Di balik pencapaian ini adalah optimalisasi mendalam NVIDIA dari model LLAMA-3.18B yang ada.
Pemangkasan struktural adalah teknologi kompresi jaringan saraf yang menyederhanakan struktur model dengan menghilangkan bobot yang tidak penting. Berbeda dari cabang acak, cabang terstruktur mempertahankan struktur matriks berat.
Distilasi pengetahuan adalah cara untuk meningkatkan kinerja dengan meniru model guru model siswa. Dalam praktik Nvidia, melalui distilasi pengetahuan berbasis logit, model siswa dapat mempelajari pemahaman yang mendalam tentang model guru, dan bahkan jika itu sangat mengurangi data pelatihan, ia dapat mempertahankan kinerja yang sangat baik.
Model Minitron-4B dan Minitron-8B yang dilatih oleh cabang terstruktur dan distilasi pengetahuan telah meningkat sebesar 16%pada MMLU, dan kinerja dapat sebanding dengan model terkenal seperti Mistral7b, Gemma7b dan Llama-38b. Prestasi ini membuktikan efektivitas metode NVIDIA, dan juga memberikan kemungkinan baru untuk pelatihan dan penyebaran model AI besar.
Ukuran open source NVIDIA ini tidak hanya menunjukkan posisi kepemimpinannya dalam teknologi AI, tetapi juga membawa sumber daya yang berharga bagi komunitas AI. Dengan kemajuan teknologi AI yang berkelanjutan, kami berharap dapat melihat metode yang lebih inovatif untuk mempromosikan AI untuk berkembang dalam arah yang lebih efisien dan lebih pintar.
Alamat model:
https://huggingface.co/nvidia/nemotron-4-minitron-4b-base
https://huggingface.co/nvidia/nemotron-4-minitron-8b-base
Dua model utama open source NVIDIA memberikan ide -ide baru untuk peningkatan efisiensi bidang AI, dan juga menunjukkan pengurangan lebih lanjut dari biaya pelatihan model AI di masa depan dan perluasan lebih lanjut dari ruang lingkup aplikasi. Menantikan aplikasi yang lebih inovatif berdasarkan ini.