Tiongkok telah membuat terobosan besar di bidang kecerdasan buatan! DeepSeek telah merilis DeepSeek V3, model bahasa besar sumber terbuka dengan ukuran parameter 671 miliar. Kinerjanya melampaui banyak model sumber tertutup arus utama termasuk GPT-4. DeepSeek V3 tidak hanya berkinerja baik dalam kompetisi pemrograman dan pengujian integrasi kode, namun juga menarik perhatian karena biaya pengembangannya yang efisien—hanya dua bulan dan $5,5 juta—yang sangat kontras dengan investasi pengembangan produk serupa. Di balik pencapaian ini adalah dukungan kuat dari dana lindung nilai kuantitatif High-Flyer Capital Management, yang berinvestasi dalam pembangunan cluster server yang kuat.
Perusahaan kecerdasan buatan Tiongkok DeepSeek baru-baru ini merilis model bahasa besar open source yang terkenal, DeepSeek V3. Model dengan 671 miliar parameter ini tidak hanya melampaui skala Llama3.1 Meta, tetapi juga mengungguli model sumber tertutup arus utama termasuk GPT-4 dalam beberapa pengujian benchmark.
Fitur luar biasa dari DeepSeek V3 adalah kinerjanya yang kuat dan proses pengembangan yang efisien. Model ini berkinerja baik dalam kompetisi pada platform pemrograman Codeforces dan memimpin pesaingnya dalam pengujian Aider Polyglot, yang menguji kemampuan integrasi kode. Pelatihan model menggunakan kumpulan data besar sebanyak 14,8 triliun token, dan ukuran parameternya mencapai 1,6 kali lipat dari Llama3.1.
Yang lebih mengejutkan lagi adalah DeepSeek menyelesaikan pelatihan model hanya dalam dua bulan dan dengan biaya US$5,5 juta, yang jauh lebih rendah dibandingkan investasi pengembangan produk serupa.
Pendukung DeepSeek adalah dana lindung nilai kuantitatif Tiongkok, High-Flyer Capital Management. Dana tersebut diinvestasikan dalam cluster server dengan 10.000 GPU Nvidia A100 senilai sekitar $138 juta. Liang Wenfeng, pendiri High-Flyer, mengatakan bahwa AI open source pada akhirnya akan mematahkan keunggulan monopoli model tertutup saat ini.
DeepSeek V3 dirilis di bawah lisensi permisif, memungkinkan pengembang mengunduh, memodifikasi, dan menggunakannya untuk berbagai aplikasi, termasuk tujuan komersial. Meski menjalankan versi lengkapnya masih memerlukan dukungan perangkat keras yang kuat, peluncuran model open source ini menandai langkah penting bagi inovasi terbuka di bidang AI.
Peluncuran DeepSeek V3 yang bersifat open source tidak hanya mendorong kemajuan teknologi kecerdasan buatan, namun juga memberikan lebih banyak peluang bagi pengembang global, yang menunjukkan bahwa pengembangan bidang kecerdasan buatan di masa depan akan lebih terbuka dan terdiversifikasi. Proses pelatihannya yang berbiaya rendah dan berefisiensi tinggi juga memberikan pengalaman dan referensi berharga bagi lembaga penelitian dan perusahaan lain, dan patut dinantikan pengembangan selanjutnya.