xAI Grok-2 menempati posisi kedua dalam peringkat robot obrolan, mengejar GPT-4o

Penulis：Eve Cole Waktu Pembaruan：2024-12-23 10:48:02

Model bahasa skala besar terbaru dari tim xAI, Grok-2 dan Grok-Mini, telah mencapai hasil yang mengesankan pada peringkat LMSys chatbot Arena. Dengan performanya yang bertenaga, terutama performanya yang luar biasa dalam tugas matematika, Grok-2 menduduki peringkat kedua, setara dengan model Gemini Google, dan bahkan melampaui OpenAI GPT-4o pada bulan Mei. Grok-Mini juga tampil bagus, finis kelima. Peningkatan peringkat yang signifikan ini menunjukkan kekuatan tim xAI di bidang penelitian dan pengembangan model AI, dan juga memberikan arah dan kemungkinan baru untuk pengembangan model bahasa skala besar di masa depan.

Data menunjukkan bahwa dua model tim xAI, Grok-2 dan Grok-Mini, telah resmi masuk dalam peringkat LMSys Chatbot Arena. Diantaranya, Grok-2 menonjol di posisi kedua, melampaui GPT-4o OpenAI (5 bulan), bersama dengan model Gemini terbaru, didukung oleh suara aktif dari lebih dari 6.000 pengguna komunitas.

Perlu disebutkan bahwa Grok-2 berkinerja sangat baik dalam tugas-tugas matematika, memenangkan tempat pertama dalam kategori ini, dan juga mencapai hasil tempat kedua yang sangat baik dalam beberapa tugas lainnya, termasuk perintah yang rumit, pemrograman, dan mengikuti instruksi. Sebagai perbandingan, Grok-2-Mini masuk peringkat kelima, menunjukkan kekuatannya yang cukup besar.

Grok-2-Mini juga mengalami peningkatan kecepatan yang signifikan, kini berjalan dua kali lebih cepat dari sebelumnya. Lompatan peningkatan ini datang dari tim inferensi xAI, yang sepenuhnya menulis ulang tumpukan inferensi dan menggunakan SGLang untuk mencapai inferensi multi-host yang lebih efisien dan meningkatkan akurasi. Pada saat yang sama, tim juga memperkenalkan algoritma inti komputasi dan komunikasi baru, serta penjadwalan pemrosesan batch dan teknologi kuantifikasi yang lebih baik, untuk lebih meningkatkan kinerja model secara keseluruhan.

Meskipun beberapa orang skeptis terhadap kinerja Grok-2 dan percaya bahwa GPT-4o OpenAI lebih baik, dalam penggunaan sebenarnya, banyak pengguna yang menyatakan bahwa Grok-2 berkinerja cukup baik dalam tugas pemrograman dan matematika. Model seri Grok-2 dirilis dalam versi beta bulan ini, dan pengguna juga dapat merasakannya melalui platform X. Selain itu, model ini juga mendukung pembuatan gambar menggunakan model pembuatan gambar FLUX.1.

Menyorot:

✨ Grok-2 berada di peringkat kedua dalam peringkat chatbot LMSys, melampaui GPT-4o (Mei) dan berada di peringkat kedua dengan Gemini.

Grok-2 menyelesaikan tugas matematika dengan baik, memenangkan tempat pertama, dan juga menduduki peringkat terbaik di banyak tugas lainnya.

Grok-2-Mini dua kali lebih cepat dari sebelumnya, sehingga semakin meningkatkan kinerja.

Performa luar biasa dari Grok-2 dan Grok-Mini tidak hanya membuktikan kemampuan inovasi tim xAI di bidang teknologi AI, tetapi juga memberikan acuan baru bagi pengembangan model bahasa berskala besar di masa depan. Keunggulan mereka dalam bidang tertentu, seperti matematika dan pemrograman, menunjukkan potensi besar model bahasa besar untuk aplikasi profesional. Saya yakin tim xAI akan menghadirkan lebih banyak kejutan di masa depan.