z bench Unduh - z bench Unduh kode sumber

z bench

Kode Sumber AI

1.0.0

Unduh

Z-Bench 1.0 oleh ZhenFund

Set tes bahasa Mandarin model bahasa Muggle yang besar

Kumpulan data

Versi Dokumen Tencent

https://docs.qq.com/sheet/DTEFsdkNERVVtR3BX

versi CSV

Kemampuan dasar : common.samples.csv
Kemampuan tingkat lanjut : emerging.samples.csv
Kemampuan vertikal : special.samples.csv

Perkenalan

Sejak ChatGPT dirilis, kami sering berseru saat menggunakannya: "Ah, sebenarnya bisa menjawab ini!" Di saat yang sama, kami juga senang melihat semakin banyak tim model dan produk besar bermunculan.

Sebagai investor awal, kita sering kali perlu mencoba dan mengevaluasi produk AI percakapan yang baru dirilis. Cara paling umum adalah membandingkannya secara intuitif dengan hasil keluaran ChatGPT yang ikonik melalui beberapa petunjuk. Dalam prosesnya, kami secara bertahap mencatat beberapa masalah yang saat ini tidak dapat ditangani dengan baik oleh model bahasa besar, serta banyak petunjuk menarik.

Jadi, petunjuk apa yang kita gunakan untuk pengujian? OpenAI telah mendemonstrasikan 48 kemampuan dasar ChatGPT di situs resminya. Di bidang NLP, OpenAI juga telah banyak menggunakan set pengujian seperti SuperGLUE, MMLU, dan Google BIG-bench. Pada saat yang sama, mengingat kemampuan baru akan muncul dalam model besar seiring dengan peningkatan parameter dan skala data, rangkaian pengujian yang terkait dengan kemampuan baru ini juga meningkat.

Namun, melalui latihan, kami menemukan bahwa rangkaian tes tugas NLP saat ini memiliki masalah berikut:

Beberapa tugas mungkin tidak cocok untuk sistem percakapan, dan beberapa tugas mungkin belum tentu memiliki versi bahasa Mandarin yang bagus;
Ketika rangkaian pengujian ini menjadi standar industri, pengoptimalan terarah dan overfitting dapat terjadi;
Rangkaian pengujian ini sering kali memerlukan penerapan pengujian otomatis dan tidak cocok untuk digunakan oleh non-profesional dalam sesi Tanya Jawab sehari-hari.

Oleh karena itu, beberapa dari kami VC Muggle, sebagai pengguna berat AI percakapan, berdasarkan kebutuhan kami sendiri, merangkum dan meluncurkan "Z-Bench" - alat bagi personel non-teknis untuk menguji secara kualitatif produk percakapan model besar (produk mirip ChatGPT ).

"Z-Bench v1.0" menyediakan total 300 petunjuk dari tiga perspektif: kemampuan dasar, kemampuan lanjutan, dan kemampuan vertikal. Titik awal kami adalah mencakup sebanyak mungkin jenis tugas NLP. Tujuan kami bukan untuk menyediakan rangkaian tes yang ketat dan lengkap secara akademis, tetapi untuk menggabungkan set tes akademis yang ada, beberapa kasus menarik yang dikumpulkan setiap hari, dan kemampuan kemunculan dan pencerahan yang ditemukan oleh komunitas akademis setelah kemunculan model-model besar, memberikan hasil yang besar set uji kemahiran model cocok untuk digunakan oleh profesional non-teknis. Namun, kami pasti akan melewatkan beberapa adegan, atau akan ada banyak konten amatir dari sudut pandang profesional, di masa mendatang, kami akan terus melengkapi dan menyempurnakannya berdasarkan masukan yang kami kumpulkan, dan menerbitkannya tepat waktu.