Alibaba Damo Academy dan komunitas MoDa ModelScope bersama-sama melakukan open source terhadap set pengujian benchmark multi-bahasa baru P-MMEval, yang bertujuan untuk mengevaluasi secara lebih komprehensif kemampuan multi-bahasa dari model bahasa besar (LLM) dan membandingkan kemampuan transfer lintas bahasa mereka. Kumpulan pengujian mencakup kumpulan data kemampuan dasar dan khusus yang efisien, memastikan cakupan multi-bahasa yang konsisten dan menyediakan sampel paralel dalam berbagai bahasa, mendukung hingga 10 bahasa dari 8 rumpun bahasa yang berbeda. P-MMEval diluncurkan untuk mengatasi kekurangan dalam evaluasi LLM saat ini, seperti kurangnya hasil evaluasi multi-bahasa yang akurat dan paralel serta inkonsistensi cakupan multi-bahasa dari kumpulan tolok ukur yang ada.
Alibaba Damo Academy dan komunitas MoDa ModelScope bersama-sama melakukan open source terhadap set pengujian benchmark multi-bahasa baru P-MMEval, yang bertujuan untuk mengevaluasi secara lebih komprehensif kemampuan multi-bahasa dari model bahasa besar (LLM) dan membandingkan kemampuan transfer lintas bahasa mereka. Kumpulan pengujian mencakup kumpulan data kemampuan dasar dan khusus yang efisien, memastikan cakupan multi-bahasa yang konsisten dan menyediakan sampel paralel dalam berbagai bahasa, mendukung hingga 10 bahasa dari 8 rumpun bahasa yang berbeda. P-MMEval diluncurkan untuk mengatasi kekurangan dalam evaluasi LLM saat ini, seperti kurangnya hasil evaluasi multi-bahasa yang akurat dan paralel serta inkonsistensi cakupan multi-bahasa dari kumpulan tolok ukur yang ada.
P-MMEval memilih set tes tolok ukur yang tersedia dan masuk akal berdasarkan metode berbasis tes signifikansi, mengintegrasikan tugas pemrosesan bahasa alami dasar dan tugas evaluasi kemampuan spesifik, memastikan konsistensi dalam cakupan bahasa dari setiap tugas, dan menyediakan sampel bahasa lintas Paralel untuk memungkinkan perbandingan yang konsisten. Untuk keragaman tugas, P-MMEval mencakup dua tugas dasar NLP utama (generasi dan pemahaman) serta lima kemampuan inti LLM saat ini. Dari segi keberagaman bahasa, P-MMEval menyatukan sepuluh bahasa berbeda yang mencakup delapan rumpun bahasa.
Kumpulan data P-MMEval telah diintegrasikan ke dalam sistem evaluasi Sinan OpenCompass dan kerangka evaluasi EvalScope, dan tugas evaluasi dapat dilakukan menggunakan kedua kerangka kerja ini. OpenCompass menyediakan platform terbuka evaluasi model besar yang bersumber terbuka, efisien, dan komprehensif yang mendukung evaluasi terpadu model bahasa besar, model multimodal, dan berbagai model, serta menerbitkan daftar hasil evaluasi secara rutin. P-MMEval juga telah terhubung ke sistem evaluasi OpenCompass untuk pertama kalinya, dan dapat menggunakan alat sumber terbuka Sinan OpenCompass untuk menyelesaikan tugas evaluasi.
Para peneliti mengevaluasi kinerja beberapa model penyetelan instruksi yang representatif, termasuk model sumber tertutup GPT-4o, Claude-3.5 dan model sumber terbuka LLaMA3.1, LLaMA3.2, Qwen2.5, dll. Hasil eksperimen menunjukkan bahwa, kecuali seri LLaMA3.2, kemampuan multibahasa semua model meningkat seiring bertambahnya ukuran model. Qwen2.5 menunjukkan performa multibahasa yang kuat pada tugas pemahaman dan spesialisasi, sementara Gemma2 berkinerja baik pada tugas pembangkitan. Model sumber tertutup umumnya lebih baik daripada model sumber terbuka.
Peluncuran P-MMEval menyediakan alat dan metode baru untuk penilaian kemampuan multibahasa pada model besar, membantu mempromosikan pengembangan dan penerapan teknologi NLP multibahasa.
Tautan kumpulan data:
https://www.modelscope.cn/datasets/modelscope/P-MMEval
Sumber terbuka P-MMEval memberikan tolok ukur yang lebih komprehensif dan terstandarisasi untuk evaluasi kemampuan multi-bahasa pada model bahasa besar. Ini mencakup berbagai bahasa dan beragam jenis tugas, menyediakan sumber daya berharga bagi peneliti dan pengembang dan mendorong pengembangan bidang NLP multibahasa. Kami berharap P-MMEval terus ditingkatkan kedepannya agar lebih baik dalam melayani evaluasi dan peningkatan LLM multibahasa.