Editor Downcodes mengetahui bahwa Institut Penelitian Kecerdasan Buatan Zhiyuan Beijing (BAAI) telah meluncurkan platform debat model besar Tiongkok pertama di dunia, FlagEval Debate! Dengan debat model sebagai intinya, platform ini menyediakan metode pengukuran baru untuk penilaian kemampuan model bahasa besar, yang bertujuan untuk membedakan perbedaan kemampuan berbagai model besar secara lebih efektif. Ini dengan cerdik menggunakan debat, aktivitas intelektual berbasis bahasa, untuk menguji secara komprehensif kemampuan model dalam pemahaman informasi, penalaran logis, generasi bahasa, dll., dan memastikan keilmuan dan otoritas hasil evaluasi melalui kombinasi pengujian publik dan tinjauan ahli . Langkah ini menandai tonggak baru dalam evaluasi model besar dan memberikan referensi dan referensi berharga bagi industri.
Institut Penelitian Kecerdasan Buatan Zhiyuan Beijing (BAAI) baru-baru ini meluncurkan FlagEval Debate, platform debat model besar Tiongkok pertama di dunia. Platform baru ini bertujuan untuk menyediakan metode pengukuran baru untuk evaluasi kemampuan model bahasa besar melalui mekanisme kompetisi debat model. Ini merupakan perpanjangan dari layanan evaluasi pertempuran model Sumber Cerdas FlagEval, dan tujuannya adalah untuk mengidentifikasi perbedaan kemampuan antara model bahasa besar.
Ada beberapa masalah dalam pertarungan model besar yang ada. Misalnya, hasil pertarungan model sering kali sama dan sulit untuk membedakan perbedaan antar model; metode pertempuran kurang interaksi antar model. Untuk mengatasi permasalahan tersebut, Intellectual Property Institute mengadopsi bentuk debat model besar untuk evaluasi.
Sebagai aktivitas intelektual berbasis bahasa, debat dapat mencerminkan pemikiran logis peserta, pengorganisasian bahasa, analisis informasi, dan kemampuan pemrosesan. Debat model dapat menunjukkan tingkat model besar dalam pemahaman informasi, integrasi pengetahuan, penalaran logis, kemampuan menghasilkan bahasa dan dialog, sekaligus menguji kedalaman pemrosesan informasi dan kemampuan beradaptasi migrasi dalam konteks yang kompleks.
Zhiyuan Research Institute menemukan bahwa pertarungan interaktif seperti debat dapat menyoroti kesenjangan antar model dan menghitung peringkat model yang efektif berdasarkan sejumlah kecil sampel data. Oleh karena itu, mereka meluncurkan FlagEval Debate, sebuah platform debat model besar Tiongkok berdasarkan pengujian publik.
Platform ini mendukung dua model untuk melakukan debat seputar topik debat. Topik debat dipilih secara acak oleh platform. Basis data topik debat sebagian besar terdiri dari topik pencarian hangat, pakar evaluasi, dan topik debat yang diurutkan oleh pakar debat terkemuka. Setiap debat dapat dinilai di platform oleh semua pengguna untuk meningkatkan pengalaman pengguna.
Setiap model debat mencakup 5 putaran penyampaian pendapat, dengan masing-masing pihak mempunyai satu kesempatan. Untuk menghindari penyimpangan yang disebabkan oleh posisi kotak positif dan negatif, kedua model akan melakukan masing-masing satu kotak dan satu kotak negatif. Setiap model besar berkompetisi dalam berbagai debat melawan model lainnya, dengan peringkat model akhir dihitung berdasarkan poin kemenangan.
Kompetisi debat model mengadopsi dua metode: pengujian publik terbuka dan evaluasi ahli. Juri ahli terdiri dari pemain dan juri dari kompetisi debat profesional. Audiens pengujian publik terbuka dapat dengan bebas mengapresiasi dan memilih.
Zhiyuan Research Institute menyatakan akan terus mengeksplorasi jalur teknis dan nilai penerapan perdebatan model, mematuhi prinsip-prinsip sains, otoritas, keadilan, dan keterbukaan, terus meningkatkan sistem evaluasi model besar FlagEval, dan memberikan wawasan dan pemikiran baru untuk ekologi evaluasi model besar.
Situs web resmi Debat FlagEval:
https://flageval.baai.org/#/debate
Peluncuran Debat FlagEval memberikan ide dan metode baru untuk evaluasi model besar, dan juga berkontribusi terhadap pengembangan teknologi model besar. Editor Downcodes berharap platform ini akan terus berkembang di masa depan dan menghadirkan lebih banyak inovasi dan terobosan di bidang model besar.