Editor Downcodes melaporkan: Sistem chatbot OpenAI yang baru dirilis menduduki peringkat teratas dalam evaluasi terbaru. Sistem ini berkinerja baik dalam hal kinerja keseluruhan, keamanan, dan kemampuan teknis, terutama dalam tugas-tugas STEM. Namun, perlu dicatat bahwa jumlah pemeringkat yang berpartisipasi dalam evaluasi ini relatif rendah, sehingga mungkin berdampak tertentu pada hasil akhir dan perlu ditafsirkan dengan hati-hati.
Sistem baru OpenAI mencapai hasil luar biasa dalam evaluasi terbaru, menempati posisi teratas dalam peringkat chatbot. Namun, karena rendahnya jumlah penilaian, hal ini mungkin mengganggu hasil penilaian.
Berdasarkan ikhtisar rilis tersebut, sistem baru ini berkinerja baik di semua kategori penilaian, termasuk kinerja keseluruhan, keselamatan, dan kemampuan teknis. Salah satu sistem, yang didedikasikan untuk tugas-tugas STEM, sempat menduduki peringkat kedua dan memimpin di bidang teknologi, bersama dengan versi GPT-4o yang dirilis pada awal September.
Chatbot Arena, sebuah platform untuk membandingkan sistem yang berbeda, mengevaluasi sistem baru menggunakan lebih dari 6.000 peringkat komunitas. Hasilnya menunjukkan bahwa sistem baru ini bekerja dengan baik pada tugas matematika, perintah kompleks, dan pemrograman.
Namun, sistem baru ini menerima peringkat yang jauh lebih rendah dibandingkan sistem matang lainnya seperti GPT-4o atau Claude3.5 dari Anthropic, masing-masing dengan kurang dari 3.000 ulasan. Ukuran sampel yang kecil dapat mengganggu penilaian dan membatasi signifikansi hasil.
Sistem baru OpenAI unggul dalam matematika dan pengkodean, yang merupakan tujuan utama desainnya. Dengan "berpikir" lebih lama sebelum menjawab, sistem ini bertujuan untuk menetapkan standar baru dalam penalaran AI. Namun, sistem ini tidak mengungguli sistem lainnya di semua bidang. Banyak tugas yang tidak memerlukan penalaran logis yang rumit, dan terkadang respons cepat dari sistem lain sudah cukup.
Bagan Lmsys tentang kekuatan model matematika dengan jelas menunjukkan bahwa sistem baru ini mendapat skor lebih dari 1360, jauh di atas kinerja sistem lain.
Meskipun ukuran sampelnya terbatas, kinerja luar biasa dari sistem baru OpenAI masih patut diperhatikan. Terobosannya di bidang matematika dan coding memberikan arah baru bagi pengembangan teknologi penalaran AI. Di masa depan, dengan akumulasi lebih banyak data dan peningkatan model yang berkelanjutan, sistem baru OpenAI diharapkan dapat menunjukkan kemampuannya yang kuat di lebih banyak bidang. Redaksi Downcodes akan terus memperhatikan perkembangannya.