Model Deepseek yang baru-baru ini dirilis Deepseek-V3 dan Deepseek-R1 telah menyebabkan respons besar di bidang kecerdasan buatan. Secara khusus, bobot model open source Deepseek-R1 dan mengungkapkan semua teknologi pelatihan, yang telah menarik perhatian luas dalam industri ini dan juga membawa tekanan besar kepada perusahaan seperti meta. Insinyur meta bahkan secara terbuka menyatakan bahwa tim itu panik dan mencoba meniru teknologi Deepseek.
Serangkaian model yang baru -baru ini diluncurkan oleh Deepseek telah menyebabkan kejutan di lingkaran AI global. Deepseek-V3 mencapai kinerja tinggi dengan biaya rendah dan sebanding dengan model sumber tertutup teratas dalam banyak ulasan; Ini juga open source.
Deepseek juga mengungkapkan semua teknik pelatihan. R1 dibandingkan dengan model O1 Openai, dan teknologi pembelajaran penguatan digunakan secara luas pada tahap pasca-pelatihan. Deepseek mengatakan bahwa R1 sebanding dengan O1 dalam tugas -tugas seperti matematika, kode, penalaran bahasa alami, dan harga API kurang dari 4% dari O1.
Baru -baru ini, TeamBlind, sebuah pos anonim dari seorang karyawan meta di komunitas tempat kerja anonim di luar negeri, sangat populer. Peluncuran Deepseek V3 menempatkan Llama 4 di belakang dalam tolok ukur, dan tim AI generatif meta sedang panik. "Perusahaan Cina yang tidak dikenal" memiliki anggaran $ 5,5 juta untuk menyelesaikan pelatihan dan menampar model besar yang ada di wajahnya.
Insinyur meta dengan panik membongkar Deepseek dan mencoba menyalin, sementara manajemen cemas tentang bagaimana menjelaskan biaya tinggi kepada manajemen senior. Munculnya Deepseek R1 membuat situasi lebih buruk, dan meskipun beberapa informasi belum dapat diungkapkan, itu akan segera dipublikasikan, dan situasinya mungkin bahkan lebih tidak menguntungkan saat itu.
Terjemahan dari posting anonim karyawan meta adalah sebagai berikut (diterjemahkan oleh Deepseek R1):
Departemen AI generatif meta memasuki keadaan darurat
Semuanya dimulai dengan Deepseek V3 - itu membuat skor benchmark Llama 4 langsung terlihat tanggal. Yang lebih memalukan adalah bahwa "perusahaan Cina yang tidak dikenal mencapai terobosan seperti itu dengan hanya $ 5 juta dalam anggaran pelatihan."
Tim insinyur dengan panik membongkar arsitektur Deepseek, mencoba mereplikasi semua detail teknisnya. Ini sama sekali tidak berlebihan, basis kode kami sedang menjalani pencarian gaya karpet.
Manajemen sekarat tentang rasionalitas biaya besar departemen. Ketika gaji tahunan dari masing -masing "pemimpin" di departemen AI generatif melebihi seluruh biaya pelatihan Deepseek v3, dan kami memiliki lusinan "pemimpin" seperti itu, bagaimana mereka harus menjelaskan kepada manajemen senior?
Deepseek R1 membuat situasi menjadi lebih serius. Meskipun informasi rahasia tidak dapat diungkapkan, data yang relevan akan segera dipublikasikan.
Ini harus menjadi tim yang berorientasi teknologi yang mampu, tetapi struktur organisasi sengaja diperluas karena masuknya sejumlah besar orang untuk pengaruh. Hasil dari Game of Thrones ini? Pada akhirnya, semua orang menjadi pecundang.
Pengantar model seri DeepseekDeepseek-V3: adalah model bahasa ahli hibrida (MOE) dengan jumlah parameter 671B, dan masing-masing token mengaktifkan 37B. Ini mengadopsi arsitektur Laten Multi-Head (MLA) dan Deepseekmoe, pra-terlatih pada 14,8 triliun token berkualitas tinggi. -4o dan Claude 3.5 model sumber tertutup teratas seperti soneta memiliki kinerja yang sebanding. Biaya pelatihan rendah, hanya 2,788 juta jam GPU H800, sekitar 5,576 juta dolar AS, dan proses pelatihan stabil.
Deepseek-R1: Termasuk Deepseek-R1-Zero dan Deepseek-R1. Melalui pelatihan pembelajaran penguatan skala besar, Deepseek-R1-Zero menunjukkan verifikasi diri, refleksi dan kemampuan lainnya melalui pelatihan pembelajaran penguatan skala besar, dan tidak bergantung pada fine-tuning (SFT) yang diawasi, tetapi ada masalah seperti orang miskin Keterbacaan dan kebingungan bahasa. Berdasarkan Deepseek-R1, Deepseek-R1 memperkenalkan pelatihan multi-tahap dan data awal dingin, yang memecahkan beberapa masalah. Pada saat yang sama, beberapa model dengan skala parameter yang berbeda telah dibuka untuk mempromosikan pengembangan komunitas open source.
Kinerja yang sangat baik: Deepseek-V3 dan Deepseek-R1 berkinerja baik dalam berbagai tolok ukur. Sebagai contoh, Deepseek-V3 mencapai hasil yang sangat baik dalam MMLU, Drop dan evaluasi lainnya; .
Inovasi Pelatihan:
Deepseek-V3 mengadopsi strategi penyeimbangan beban tanpa kerugian tambahan dan target prediksi multi-token (MTP) untuk mengurangi degradasi kinerja dan meningkatkan kinerja model;
Deepseek-R1-Zero menggunakan pelatihan pembelajaran penguatan murni dan hanya mengandalkan sinyal hadiah dan hukuman sederhana untuk mengoptimalkan model, yang membuktikan bahwa pembelajaran penguatan dapat meningkatkan kemampuan inferensi model; stabilitas dan keterbacaan.
Berbagi Sumber Terbuka: Model seri Deepseek mematuhi konsep open source dan bobot model open source, seperti Deepseek-V3 dan Deepseek-R1 dan model suling kecilnya, yang memungkinkan pengguna untuk melatih model lain melalui teknologi distilasi untuk mempromosikan komunikasi dan inovasi dalam Teknologi AI.
Keuntungan Multi-Domain: Deepseek-R1 menunjukkan kemampuannya yang kuat di berbagai bidang. dan tugas generasi.
Kinerja Biaya Tinggi: Model Seri Deepseek API terjangkau. Misalnya, harga input dan output API Deepseek-V3 jauh lebih rendah dari model serupa;
Tugas Pemrosesan Bahasa Alami: Termasuk pembuatan teks, sistem tanya jawab, terjemahan mesin, ringkasan teks, dll. Misalnya, dalam sistem tanya jawab, Deepseek-R1 dapat memahami masalah dan menggunakan kemampuan penalaran untuk memberikan jawaban yang akurat; dalam tugas pembuatan teks, teks berkualitas tinggi dapat dihasilkan berdasarkan topik yang diberikan.
Pengembangan Kode: Bantuan Pengembang Menulis Kode, Program Debug, dan Memahami Logika Kode. Misalnya, ketika pengembang menemukan masalah kode, Deepseek-R1 dapat menganalisis kode dan memberikan solusi;
Memecahkan Masalah Matematika: Memecahkan Masalah Matematika Kompleks dalam Pendidikan Matematika, Penelitian Ilmiah dan Skenario Lainnya. Seperti Deepseek-R1, ini berkinerja baik dalam pertanyaan terkait kompetisi AIME dan dapat digunakan untuk membantu siswa dalam belajar matematika dan peneliti dalam menangani masalah matematika.
Model Research and Development: Menyediakan referensi dan alat bagi peneliti AI untuk mempelajari distilasi model, peningkatan struktur model dan metode pelatihan. Para peneliti dapat melakukan percobaan berdasarkan model open source Deepseek untuk mengeksplorasi arah teknologi baru.
Pembuatan Keputusan Auxiliary: Proses data dan informasi dan berikan saran pengambilan keputusan di bidang bisnis, keuangan, dll. Misalnya, menganalisis data pasar untuk memberikan referensi bagi perusahaan untuk merumuskan strategi pemasaran;
Kunjungi Platform: Pengguna dapat masuk ke situs web resmi Deepseek (https://www.deepseek.com/) untuk memasuki platform.
Pilih model: Di situs web resmi atau aplikasi, dialog default didorong oleh Deepseek-V3. Jika dipanggil melalui API, atur parameter model yang sesuai dalam kode sesuai dengan persyaratan, seperti pengaturan model = 'Deepseek-Reasoner' saat menggunakan Deepseek-R1.
Tugas Input: Masukkan tugas yang dijelaskan dalam bahasa alami dalam antarmuka dialog, seperti "menulis novel cinta", "menjelaskan fungsi kode ini", "Memecahkan persamaan matematika", dll.; ke spesifikasi API dan tambahkan informasi terkait tugas yang dilewati sebagai parameter input.
Dapatkan Hasil: Setelah model memproses tugas, mengembalikan hasilnya, lihat teks yang dihasilkan, menjawab pertanyaan, dll. Pada antarmuka;
KesimpulanModel seri Deepseek telah mencapai hasil yang luar biasa di bidang AI dengan kinerja mereka yang luar biasa, metode pelatihan inovatif, semangat berbagi sumber terbuka dan keunggulan yang hemat biaya.
Jika Anda tertarik pada teknologi AI, Anda mungkin juga suka, berkomentar dan bagikan pandangan Anda tentang serangkaian model Deepseek. Pada saat yang sama, kami terus memperhatikan pengembangan Deepseek berikutnya, dan menantikannya membawa lebih banyak kejutan dan terobosan ke bidang AI, mempromosikan kemajuan berkelanjutan teknologi AI, dan membawa lebih banyak perubahan dan peluang ke berbagai Industri.
Munculnya Deepseek telah membawa vitalitas dan persaingan baru ke bidang kecerdasan buatan, dan semangat open source -nya bahkan lebih terpuji. Di masa depan, model seri Deepseek akan menunjukkan kemampuan kuat mereka di lebih banyak bidang, mari kita tunggu dan lihat!