Kinerja model seri baru MiniMax-01 sumber terbuka MiniMax sebanding dengan GPT-4o - artikel AI

Penulis：Eve Cole Waktu Pembaruan：2025-01-24 11:16:02

MiniMax merilis seri model open source baru MiniMax-01 pada tanggal 15 Januari 2025, termasuk model teks besar MiniMax-Text-01 dan model visual multi-modal besar MiniMax-VL-01. Rangkaian parameter model ini mencapai 456 miliar, dengan satu aktivasi sebesar 45,9 miliar. Ia dengan berani berinovasi dalam arsitektur dan menerapkan mekanisme perhatian linier dalam skala besar untuk pertama kalinya, menembus batasan Transformer tradisional dan mampu. memproses konteks secara efisien hingga 4 juta token, jauh lebih unggul dari model yang ada. Seri MiniMax-01 setara dengan model luar negeri terkemuka dalam hal kinerja dan menunjukkan keunggulan signifikan dalam pemrosesan teks panjang. Kemampuan pemrosesannya yang efisien dan harga yang murah membuatnya sangat kompetitif dalam aplikasi komersial.

MiniMax mengumumkan open source dari seri model barunya MiniMax-01 pada tanggal 15 Januari 2025. Seri ini mencakup model besar bahasa dasar MiniMax-Text-01 dan model besar multi-modal visual MiniMax-VL-01. Seri MiniMax-01 telah membuat inovasi berani dalam arsitektur, menerapkan mekanisme perhatian linier dalam skala besar untuk pertama kalinya, mendobrak keterbatasan arsitektur Transformer tradisional. Volume parameternya mencapai 456 miliar, dan satu aktivasi mencapai 45,9 miliar. Kinerja komprehensifnya sebanding dengan model luar negeri terkemuka, dan secara efisien dapat menangani konteks hingga 4 juta token. Panjangnya 32 kali lipat dari GPT-4o dan Claude-3.5-Soneta 20 kali.

MiniMax percaya bahwa tahun 2025 akan menjadi tahun yang penting bagi perkembangan Agen yang pesat. Baik itu sistem Agen tunggal atau sistem multi-Agen, diperlukan konteks yang lebih panjang untuk mendukung memori berkelanjutan dan komunikasi dalam jumlah besar. Peluncuran model seri MiniMax-01 justru untuk memenuhi permintaan ini dan mengambil langkah pertama dalam membangun kemampuan dasar Agen yang kompleks.

微信截图_20250115091926.png

Berkat inovasi arsitektur, optimalisasi efisiensi, dan pelatihan klaster terintegrasi serta desain dorong, MiniMax dapat menyediakan layanan API pemahaman teks dan multi-modal dengan kisaran harga terendah di industri. Harga standarnya adalah token masukan 1 yuan/juta token dan token keluaran 8 yuan/ratus.10.000 token. Platform terbuka MiniMax dan versi luar negeri telah diluncurkan untuk dinikmati oleh para pengembang.

Model seri MiniMax-01 telah bersumber terbuka di GitHub dan akan terus diperbarui. Dalam evaluasi pemahaman teks dan multi-modal arus utama industri, seri MiniMax-01 mengikat model canggih yang diakui secara internasional GPT-4o-1120 dan Claude-3.5-Sonnet-1022 dalam sebagian besar tugas. Khususnya untuk tugas teks yang panjang, dibandingkan dengan model Gemini Google, MiniMax-Text-01 memiliki penurunan kinerja paling lambat seiring bertambahnya panjang masukan, yang jauh lebih baik daripada Gemini.

Model MiniMax sangat efisien saat memproses masukan yang panjang, mendekati kompleksitas linier. Dalam desain strukturalnya, 7 dari setiap 8 lapisan menggunakan perhatian linier berdasarkan Lightning Attention, dan 1 lapisan menggunakan perhatian SoftMax tradisional. Ini adalah pertama kalinya di industri mekanisme perhatian linier diperluas ke tingkat model komersial. MiniMax telah mempertimbangkan Hukum Penskalaan secara komprehensif, dikombinasikan dengan MoE, desain struktural, optimalisasi pelatihan dan optimalisasi inferensi, serta merekonstruksi sistem pelatihan dan inferensi. termasuk optimasi komunikasi menyeluruh MoE yang lebih efisien, optimasi urutan yang lebih panjang, dan implementasi perhatian linier Kernel yang efisien pada tingkat inferensi.

Dalam sebagian besar tes akademik, seri MiniMax-01 telah mencapai hasil yang sebanding dengan tes tingkat pertama di luar negeri. Ini jauh lebih maju dalam rangkaian evaluasi konteks panjang, seperti kinerjanya yang luar biasa dalam tugas pengambilan 4 juta Needle-In-A-Haystack. Selain kumpulan data akademis, MiniMax juga membuat kumpulan pengujian skenario asisten berdasarkan data nyata, dan MiniMax-Text-01 berkinerja luar biasa dalam skenario ini. Dalam rangkaian tes pemahaman multi-modal, MiniMax-VL-01 juga lebih unggul.

Alamat sumber terbuka: https://github.com/MiniMax-AI

Model seri MiniMax-01 yang bersifat open source telah memberikan vitalitas baru ke dalam pengembangan bidang AI. Terobosannya dalam pemrosesan teks panjang dan pemahaman multi-modal akan mendorong perkembangan pesat teknologi Agen dan aplikasi terkait. Kami menantikan lebih banyak inovasi dan terobosan dari MiniMax di masa depan.

​Kinerja model seri baru MiniMax-01 sumber terbuka MiniMax sebanding dengan GPT-4o - artikel AI

Kinerja model seri baru MiniMax-01 sumber terbuka MiniMax sebanding dengan GPT-4o - artikel AI