Di bidang AI, terdapat banyak raksasa dan persaingan sangat ketat. Namun, Nous Research, sebuah perusahaan start-up yang hanya beranggotakan 10 orang, telah berhasil menantang otoritas raksasa teknologi dengan kekuatan teknis dan konsep open source yang kuat. Model Hermes3 yang baru mereka rilis disempurnakan berdasarkan Llama 3.1, dengan ukuran parameter 405B dan kinerja luar biasa. Model ini telah diunduh lebih dari 33 juta kali, menjadikannya produk fenomenal di industri AI. Artikel ini akan mempelajari kinerja luar biasa dari model Hermes3, metode pelatihan yang efisien, dan semangat inovatif Nous Research.
Sebuah tim kecil yang hanya terdiri dari 10 orang berani menantang status raksasa teknologi Meta. Ini hanyalah versi nyata dari David yang mengalahkan Goliat!
Startup bernama Nous Research ini tidak asing lagi bagi siapa pun. Hermes3 yang baru saja mereka luncurkan disempurnakan berdasarkan model 405B Llama3.1. Meski jumlah anggota tim sedikit, kekuatan mereka tidak bisa dianggap remeh. Tim beranggotakan sepuluh orang ini telah berhasil menyempurnakan beberapa model seperti Mistral, Yi, Llama, dll., dan telah diunduh lebih dari 33 juta kali. Ini hanyalah mesin terlaris di industri AI!
Kemunculan Hermes3 ibarat sebuah pukulan telak di dunia AI. Bahkan setelah kuantisasi FP8, performanya masih sangat bertenaga. Pengoptimalan ini tidak hanya secara signifikan mengurangi kebutuhan VRAM dan disk model, tetapi juga memungkinkan Hermes3 berjalan pada satu node, yang merupakan kabar baik bagi pengembang!
Dalam hal kemampuan percakapan, Hermes3 serba bisa. Baik itu ingatan jangka panjang, dialog berulang kali, permainan peran, atau monolog internal, ia dapat mengatasinya dengan mudah. Berkat jendela konteks 128K Llama3.1, Hermes3 adalah diplomat berpengalaman dalam menjaga percakapan tetap koheren.
Namun kemampuan Hermes3 tidak berhenti sampai di situ. Ini menunjukkan serangkaian kemampuan tingkat lanjut yang melampaui pemodelan bahasa tradisional untuk memahami dan mengevaluasi kualitas teks yang dihasilkan dengan cara yang canggih dan bernuansa. Artinya, ia tidak hanya bisa menjadi pembicara yang fasih, tetapi juga kritikus teks yang tegas!
Yang lebih menakjubkan lagi adalah Hermes3 juga mengintegrasikan beberapa kemampuan agen, termasuk keluaran terstruktur, keluaran langkah-langkah perantara, dan pembuatan monolog internal untuk mencapai pengambilan keputusan yang transparan. Ini seperti membekali AI dengan otak transparan, memungkinkan kita mengintip proses berpikirnya.
Proses pelatihan Hermes3 bisa disebut sebagai pelatihan jahat di dunia AI. Ini telah melalui dua tahap: penyempurnaan terawasi (SFT) dan optimalisasi preferensi langsung (DPO). Tim menghabiskan 5 bulan penuh untuk menyaring dan membangun kumpulan data SFT, dan dedikasi serta kesabaran mereka sungguh menakjubkan.
Nous Research, sebuah kelompok penelitian terapan swasta yang didirikan pada tahun 2023 dan berkantor pusat di New York, hanyalah penyerbu biadab di dunia AI. Mereka sangat percaya pada kekuatan open source dan berjanji untuk menantang keterbatasan inovasi teknologi tertutup. Slogan perusahaan ini sangat menarik: Kami menantang asumsi bahwa teknologi tertutup akan selalu menempati puncak inovasi dan, sebaliknya, menghadirkan kode sumber terbuka yang kuat.
Hanya dalam waktu setahun, Nous Research telah merilis 5 kumpulan data dan 89 model. Output tinggi ini sepertinya menyatakan kepada dunia: ukuran tidak penting, kekuatan adalah raja!
Alamat makalah: https://nousresearch.com/wp-content/uploads/2024/08/Hermes-3-Technical-Report.pdf
Pengenalan resmi: https://nousresearch.com/freedom-at-the-frontier-hermes-3/
Keberhasilan Nous Research dan Hermes3 tidak hanya membuktikan kekuatan open source, namun juga membawa vitalitas dan kemungkinan baru di bidang AI. Tim kecil juga dapat menciptakan keajaiban, yang tidak diragukan lagi merupakan dorongan besar bagi semua praktisi AI. Kedepannya, mari kita tunggu dan lihat hasil mengejutkan apa lagi yang akan dihasilkan oleh Nous Research.