Alibaba Damo Academy と MoDa コミュニティ ModelScope は共同で、新しい多言語ベンチマーク テスト セット P-MMEval をオープンソース化しました。これは、大規模言語モデル (LLM) の多言語機能をより包括的に評価し、言語間転送機能を比較することを目的としています。このテスト セットは、基本的および専門的な能力の効率的なデータ セットをカバーし、一貫した複数言語のカバレッジを確保し、複数の言語にわたる並列サンプルを提供し、8 つの異なる言語ファミリーから最大 10 言語をサポートします。 P-MMEval は、正確かつ並列的な多言語評価結果の欠如や、既存のベンチマーク セットの多言語カバレッジの不一致など、現在の LLM 評価の欠点に対処するために開始されました。
Alibaba Damo Academy と MoDa コミュニティ ModelScope は共同で、新しい多言語ベンチマーク テスト セット P-MMEval をオープンソース化しました。これは、大規模言語モデル (LLM) の多言語機能をより包括的に評価し、言語間転送機能を比較することを目的としています。このテスト セットは、基本的および専門的な能力の効率的なデータ セットをカバーし、一貫した複数言語のカバレッジを確保し、複数の言語にわたる並列サンプルを提供し、8 つの異なる言語ファミリーから最大 10 言語をサポートします。 P-MMEval は、正確かつ並列的な多言語評価結果の欠如や、既存のベンチマーク セットの多言語カバレッジの不一致など、現在の LLM 評価の欠点に対処するために開始されました。
P-MMEval は、有意性テストベースの方法に基づいて利用可能な合理的なベンチマーク テスト セットを選択し、基本的な自然言語処理タスクと能力固有の評価タスクを統合し、各タスクの言語範囲の一貫性を確保し、言語の相互並列サンプルを提供します。一貫した比較が可能になります。タスクの多様性に関して、P-MMEval は、現在の LLM の 5 つのコア機能に加えて、2 つの主要な基本 NLP タスク (生成と理解) をカバーしています。言語の多様性の観点から、P-MMEval は 8 つの言語族をカバーする 10 の異なる言語を統合します。
P-MMEval データセットは、Sinan 評価システム OpenCompass および EvalScope 評価フレームワークに統合されており、これら 2 つのフレームワークを使用して評価タスクを実行できます。 OpenCompass は、大規模言語モデル、マルチモーダルモデル、各種モデルのワンストップ評価をサポートする、オープンソースの効率的かつ包括的な大規模モデル評価オープンプラットフォームを提供し、評価結果リストを定期的に公開します。 P-MMEval は OpenCompass 評価システムにも初めて接続されており、Sinan OpenCompass オープン ソース ツールを使用して評価タスクを完了できます。
研究者らは、クローズドソース モデル GPT-4o、Claude-3.5 およびオープンソース モデル LLaMA3.1、LLaMA3.2、Qwen2.5 など、いくつかの代表的な命令チューニング モデルのパフォーマンスを評価しました。実験結果では、LLaMA3.2シリーズを除くすべてのモデルで、モデルサイズが大きくなるにつれて多言語機能が向上することがわかりました。 Qwen2.5 は理解タスクと専門化タスクで強力な多言語パフォーマンスを示しますが、Gemma2 は生成タスクで優れたパフォーマンスを示します。一般に、クローズド ソース モデルはオープンソース モデルよりも優れています。
P-MMEval の発表により、大規模モデルの多言語能力評価のための新しいツールと方法が提供され、多言語 NLP テクノロジーの開発と応用の促進に役立ちます。
データセットのリンク:
https://www.modelscope.cn/datasets/modelscope/P-MMEval
P-MMEval のオープン ソースは、大規模な言語モデルの多言語機能を評価するための、より包括的で標準化されたベンチマークを提供します。幅広い言語と多様なタスクタイプをカバーしており、研究者や開発者に貴重なリソースを提供し、多言語 NLP 分野の発展を促進します。 多言語 LLM の評価と改善に役立つよう、今後も P-MMEval が継続的に改善されることを期待しています。