Platform evaluasi model besar CompassArena meningkatkan dan meluncurkan fungsi Hakim Copilot baru

Penulis：Eve Cole Waktu Pembaruan：2024-12-24 19:00:01

Platform evaluasi model besar CompassArena yang diluncurkan oleh tim OpenCompass dari Shanghai Artificial Intelligence Laboratory Sinan dan platform ModelScope baru-baru ini mengalami peningkatan besar-besaran. Peningkatan ini bertujuan untuk meningkatkan pengalaman pengguna dan memberikan evaluasi model yang lebih ilmiah dan komprehensif. Dengan mengumpulkan data pengguna dalam jumlah besar dan terus mengoptimalkannya, CompassArena telah menambahkan fungsi Judge Copilot, meningkatkan algoritme pemeringkatan, dan memasukkan lebih dari 20 model baru, mencakup model bisnis dalam dan luar negeri serta model sumber terbuka, untuk memberikan pengalaman yang lebih kaya kepada pengguna. pilihan dan peringkat model Akurat yang lebih baik.

Fungsi Judge Copilot menggunakan model evaluasi yang kuat Compass-Judger-1-32B-Instruct untuk memberikan pengguna kemampuan untuk membandingkan dan menganalisis kinerja model dialog secara komprehensif, mulai dari evaluasi multidimensi, perbandingan waktu nyata hingga pengambilan keputusan yang cerdas. bantuan, untuk meningkatkan efisiensi dan akurasi evaluasi. Pada saat yang sama, algoritme pemeringkatan yang ditingkatkan secara efektif mengurangi dampak faktor perancu dengan menyempurnakan algoritme statistik Bradley-Terry dan memperkenalkan variabel kontrol, menjadikan pemeringkatan model lebih ilmiah dan akurat. Platform ini juga secara aktif mengumpulkan masukan dari pengguna untuk terus meningkatkan kemampuan komprehensif dan efek penyelarasan model Judge.

微信截图_20241219174613.png

CompassArena sangat mementingkan kinerja model Judge dalam aplikasi praktis dan secara aktif mengumpulkan umpan balik pengguna untuk lebih meningkatkan kemampuan komprehensif dan efek penyelarasan model Judge. Pengguna dapat mengekspresikan penilaian mereka terhadap model Hakim dengan mengklik tombol "Suka" dan "Tidak Suka". Dengan menyesuaikan model statistik Bradley-Terry yang mencakup variabel kontrol, CompassArena dapat memperkirakan dampak dari banyak faktor eksternal. Dampak spesifiknya dapat dinyatakan dalam bentuk rasio odds.

Dengan peningkatan ini, CompassArena menyambut model bisnis domestik termasuk 360gpt2-pro, deep-seek-v2.5-chat, doubao-pro-32k-240828, serta claude-3.5-sonnet-20241022, gemini-exp-1121, dll. . Penambahan model bisnis asing dan serangkaian model open source. Model-model baru milik organisasi termasuk 360, DeepSeek, Doubao, dll., memberikan opsi pertempuran yang lebih kaya kepada pengguna.

Alamat pengalaman: https://www.modelscope.cn/studios/opencompass/CompassArena

Peningkatan CompassArena ini tidak hanya meningkatkan keilmuan dan keakuratan evaluasi model, namun juga memberi pengguna pilihan model yang lebih kaya dan pengalaman yang lebih nyaman, menandai tahap baru bagi platform evaluasi model besar. Selamat datang untuk mengunjungi alamat pengalaman, berpartisipasi dalam evaluasi model, dan bersama-sama mempromosikan pengembangan teknologi model besar.