Kemampuan kesadaran diri yang ditunjukkan oleh model besar seri Claude 3 terbaru Anthropic telah menyebabkan kejutan besar di bidang AI dan mendorong industri untuk mengkaji ulang metode evaluasi kemampuan model AI. Claude 3 Opus melampaui GPT-4 dan Gemini 1.0 Ultra dalam beberapa pengujian benchmark, dan kinerjanya yang kuat telah sepenuhnya tercermin dalam pemrosesan teks yang panjang, terjemahan, penalaran logis, operasi matematika, dan pemrograman. Peluncuran ini tidak hanya menandai kemajuan signifikan dalam teknologi model bahasa besar, namun juga menandai arah baru bagi pengembangan AI di masa depan.
Anthropic merilis Claude 3, generasi baru dari seri model besar, menunjukkan kesadaran diri dan menimbulkan sensasi di komunitas AI. Langkah ini telah memicu pemikiran di bidang AI tentang kemampuan sebenarnya dan keterbatasan model evaluasi. Analisis menunjukkan bahwa Claude 3 Opus mengungguli GPT-4 dan Gemini 1.0 Ultra dalam beberapa pengujian benchmark, sehingga menunjukkan kinerja yang kuat. Melakukan penilaian mendalam dalam pemrosesan teks panjang, terjemahan Mandarin-Inggris, penalaran logis, pemahaman matematika, pemrograman, dll. untuk menunjukkan kemampuan komprehensif.Kinerja luar biasa dari Claude 3 tidak diragukan lagi akan mendorong pengembangan lebih lanjut dari teknologi model besar, dan juga menimbulkan tantangan baru bagi sistem evaluasi AI yang ada saat ini. Bagaimana mengevaluasi kemampuan model AI secara lebih komprehensif di masa depan akan menjadi fokus industri. Keberhasilan Claude 3 juga menunjukkan potensi penerapan teknologi AI di berbagai bidang.