Model besar serba guna paling kuat dari NVIDIA, Nemotron-4, telah hadir! 15B mengalahkan 62B, target single A100/H100 dapat dijalankan

Penulis：Eve Cole Waktu Pembaruan：2025-01-05 13:16:01

NVIDIA telah merilis model bahasa skala besar barunya Nemotron-4, model dengan 15 miliar parameter yang berkinerja baik di berbagai tolok ukur, mengungguli pesaing dengan ukuran yang sama. Model ini didasarkan pada arsitektur decoder Transformer murni standar dan dilatih menggunakan kumpulan data multi-bahasa dan pengkodean yang berisi 8 triliun token. Performanya yang kuat mencakup penalaran akal sehat, matematika dan kode, klasifikasi dan pembuatan multi-bahasa, serta terjemahan mesin.

Tim NVIDIA meluncurkan model baru dengan 15 miliar parameter, Nemotron-4, yang bekerja dengan baik dalam bahasa Inggris, tugas multi-bahasa dan pengkodean, dan mengalahkan model dengan ukuran parameter yang sama pada berbagai tolok ukur evaluasi. Menggunakan arsitektur Transformer decoder murni standar, kumpulan data pelatihan berisi 8 triliun token, mencakup berbagai bahasa dan teks yang dikodekan. Nemotron-415B memiliki kinerja luar biasa di berbagai bidang tugas, termasuk penalaran akal sehat, matematika dan pengkodean, klasifikasi dan pembangkitan multi-bahasa, terjemahan mesin, dll. Penulis yakin bahwa Nemotron-415B diharapkan menjadi model besar serba guna terbaik yang dapat berjalan pada satu GPU NVIDIA A100 atau H100.

Kemunculan Nemotron-4 menunjukkan terobosan teknologi berkelanjutan NVIDIA di bidang model bahasa berskala besar. Keunggulannya dalam pengoperasian GPU tunggal juga membuatnya memiliki prospek penerapan yang luas. Perlu dinantikan pengembangan dan penerapannya lebih lanjut di lapangan kecerdasan buatan di masa depan.