Institut Penelitian Kecerdasan Buatan Zhiyuan Beijing (BAAI) meluncurkan arena model besar FlagEval pada tanggal 4 September 2024. Ini adalah layanan evaluasi pertempuran model pertama di dunia yang menyertakan video Vincent. Layanan ini terbuka untuk umum dan mencakup sekitar 40 model besar di dalam dan luar negeri. Layanan ini mendukung evaluasi online atau offline yang disesuaikan untuk empat tugas utama: tanya jawab bahasa, pemahaman gambar dan teks multi-modal, gambar berbasis teks, dan teks. berbasis video, dan secara inovatif memperkenalkan subjektif Mendukung sistem penilaian tangga dan berupaya mengevaluasi kinerja model dengan lebih akurat. FlagEval tidak hanya memberikan evaluasi terhadap berbagai pertanyaan yang telah ditetapkan seperti pemahaman sederhana, penerapan pengetahuan, kemampuan pengkodean, kemampuan penalaran, dll., tetapi juga menggunakan mekanisme anonim untuk memastikan keadilan dan objektivitas proses evaluasi. Pengguna dapat berpartisipasi dalam evaluasi melalui web atau terminal seluler, dan melihat hasil penilaian dan peringkat arena secara real time.
Pada tanggal 4 September 2024, Institut Penelitian Kecerdasan Buatan Zhiyuan Beijing (BAAI) mengumumkan peluncuran layanan evaluasi pertempuran model pertama di dunia termasuk arena model besar video-FlagEval milik Vincent.
Layanan ini terbuka untuk pengguna, mencakup sekitar 40 model besar di dalam dan luar negeri, dan mendukung evaluasi online atau offline yang disesuaikan untuk empat tugas utama, termasuk tanya jawab bahasa, pemahaman gambar dan teks multi-modal, gambar Vinsensian, dan video Vinsensian. Peluncuran arena model besar FlagEval tidak hanya memberikan evaluasi terhadap berbagai pertanyaan yang telah ditetapkan seperti pemahaman sederhana, penerapan pengetahuan, kemampuan pengkodean, kemampuan penalaran, dll., tetapi juga memperkenalkan sistem penilaian tangga kecenderungan subjektif untuk pertama kalinya ke lebih banyak lagi. secara akurat mengungkapkan perbedaan kinerja model.
Layanan ini mengadopsi mekanisme evaluasi anonim untuk memastikan keadilan proses evaluasi. Pengguna dapat berpartisipasi dalam evaluasi melalui halaman web atau portal akses seluler domestik pertama dan merasakan evaluasi pertempuran model yang efisien. Hasil penilaian arena model skala besar FlagEval akan segera diumumkan untuk membentuk daftar arena yang menunjukkan kemampuan tempur masing-masing model.
Zhiyuan Research Institute menyatakan bahwa mereka akan membuka sumber data lengkap evaluasi pertempuran model untuk mempromosikan pengembangan ekologi evaluasi model besar. Peluncuran arena model skala besar FlagEval semakin memperluas tata letak teknis Zhiyuan serta penelitian dan pengembangan alat dan metode di bidang evaluasi model, serta menyediakan alat pengujian dan evaluasi baru untuk penelitian dan penerapan di bidang kecerdasan buatan.
Alamat pengalaman: https://flageval.baai.ac.cn/#/home
Data arena model besar FlagEval sumber terbuka dari Zhiyuan Research Institute bertujuan untuk mendorong perkembangan yang sehat dari ekosistem evaluasi model besar dan memberikan dukungan kuat untuk kemajuan berkelanjutan di bidang kecerdasan buatan. Selamat datang untuk mengunjungi alamat pengalaman, berpartisipasi dalam evaluasi, dan bersama-sama mempromosikan pengembangan teknologi AI!