Terobosan model besar dalam negeri! DeepSeek V3 menantang rekor pengukuran aktual Claude 3.5 Soneta

Penulis：Eve Cole Waktu Pembaruan：2025-01-18 20:32:01

Model besar DeepSeek V3 yang diproduksi di dalam negeri menonjol di arena AI, dan kinerjanya yang luar biasa telah menarik perhatian luas. Sebagai satu-satunya model open source yang masuk sepuluh besar, DeepSeek V3 telah melampaui banyak pesaing di bidang pemrograman, matematika, dan bidang lainnya, dan bahkan melampaui Claude3.5Sonnet dalam beberapa pengujian. Artikel ini akan melakukan analisis mendalam terhadap kemampuan dan karakteristik DeepSeek V3 melalui serangkaian perbandingan pengukuran aktual, dan mengeksplorasi dampaknya terhadap perkembangan teknologi AI dalam negeri.

Baru-baru ini, performa luar biasa model besar domestik DeepSeek V3 di arena AI telah menarik perhatian industri. Sebagai satu-satunya model open source yang masuk sepuluh besar, model ini tidak hanya melampaui o1-mini, tetapi bahkan melampaui Claude3.5Sonnet di banyak bidang seperti pemrograman dan matematika. Untuk memverifikasi kemampuan sebenarnya, banyak pihak telah melakukan serangkaian perbandingan pengukuran sebenarnya.

Pada tes kemampuan pemahaman dasar kedua model menunjukkan karakteristik yang berbeda. Menghadapi pertanyaan asah otak Tiongkok "Ibu Xiao Ming memiliki tiga anak", DeepSeek V3 bekerja dengan baik, tidak hanya menjawab dengan benar tetapi juga melakukan verifikasi diri. Namun, dalam tes permainan kata bahasa Inggris "April Mop", itu sedikit kurang dan gagal memahami kecerdikan bahasa, sementara Claude3.5Sonnet menanganinya dengan mudah.

Tes penalaran logis juga mengungkapkan hasil yang menarik. Saat dihadapkan pada jebakan logis klasik "Retarded Bar", kedua model membuat kesalahan penilaian. Namun pada isu "membalikkan kutukan", kedua belah pihak menunjukkan kemampuan penalaran yang sangat baik dan berhasil mengidentifikasi hubungan antara Tom Cruise dan ibunya.

Dalam kompetisi soal matematika ujian masuk pascasarjana, DeepSeek V3 menunjukkan kemampuan matematika yang lebih kuat. Tidak hanya mampu menganalisis penerapan integral permukaan dan teorema Gauss secara detail, namun juga berhasil mendapatkan jawaban yang benar. Sebaliknya, meskipun Claude3.5Sonnet memiliki gambaran yang jelas, hasil perhitungan akhirnya salah.

Dalam perbandingan kemampuan pemrograman, DeepSeek V3 benar-benar mengalahkan lawan-lawannya dalam pengujian pembuatan website. Hasil ini menegaskan performa luar biasa mereka di kancah ranking.

Perlu disebutkan bahwa dengan penambahan o1 versi totok, pola arena AI telah berubah lagi. o1 menduduki puncak daftar dengan keunggulan absolut, menempati posisi pertama di hampir semua kategori kecuali penulisan kreatif.

Serangkaian pengujian ini menunjukkan bahwa model-model besar yang dikembangkan sendiri oleh Tiongkok dengan cepat mengejar ketertinggalan dari level terdepan di dunia internasional. Performa DeepSeek V3 membuktikan bahwa ia memiliki kekuatan untuk bersaing dengan model-model ternama di bidang tertentu, memberikan kepercayaan baru pada pengembangan teknologi AI dalam negeri.

Keberhasilan DeepSeek V3 tidak hanya mencerminkan kemajuan teknologi AI dalam negeri, namun juga menandai masa depan cerah bagi pengembangan model-model besar Tiongkok di masa depan. Inovasi dan terobosan teknologi yang berkelanjutan akan mendorong industri AI Tiongkok ke tingkat yang lebih tinggi.