阿里巴巴達摩院和魔搭社群ModelScope共同開源了新的多語言基準測試集P-MMEval,旨在更全面地評估大型語言模型(LLM)的多語言能力,並比較其跨語言遷移能力。該測試集涵蓋了基礎和專項能力的高效資料集,確保了多語言覆蓋的一致性,並提供了跨多種語言的平行樣本,支援高達10種語言,來自8個不同的語族。 P-MMEval的推出旨在解決當前LLM評估中存在的不足,例如缺乏準確且平行的多語言評估結果,以及現有基準測試集在多語言覆蓋方面的不一致性。
阿里巴巴達摩院和魔搭社群ModelScope共同開源了新的多語言基準測試集P-MMEval,旨在更全面地評估大型語言模型(LLM)的多語言能力,並比較其跨語言遷移能力。該測試集涵蓋了基礎和專項能力的高效資料集,確保了多語言覆蓋的一致性,並提供了跨多種語言的平行樣本,支援高達10種語言,來自8個不同的語族。 P-MMEval的推出旨在解決當前LLM評估中存在的不足,例如缺乏準確且平行的多語言評估結果,以及現有基準測試集在多語言覆蓋方面的不一致性。
P-MMEval基於一種基於顯著性檢定的方法挑選可用且合理的基準測試集,整合了基礎自然語言處理任務和能力特定的評估任務,確保每個任務在語言覆蓋上的一致性,並提供跨語言的平行樣本,以便進行一致的比較。對於任務多樣性,P-MMEval涵蓋了兩個關鍵的基礎NLP任務(生成和理解)以及當前LLM的五個核心能力。在語言多樣性方面,P-MMEval統一了涵蓋八個語系的十種不同語言。
P-MMEval資料集已整合到司南評測體系OpenCompass和EvalScope評測架構中,使用這兩個架構都可以執行評測任務。 OpenCompass提供了一個開源、高效、全面的大模型評測開放平台,支援大語言模型、多模態模型各類模型的一站式評測,並定期公佈評測結果榜單。 P-MMEval也在第一時間連接了OpenCompass的評測體系,可使用司南OpenCompass開源工具完成評測任務。
研究人員評估了幾種代表性的指令調優模型的效能,包括閉源模型GPT-4o、Claude-3.5和開源模型LLaMA3.1、LLaMA3.2、Qwen2.5等。實驗結果表明,除了LLaMA3.2系列外,所有模型的多語言能力隨著模型規模的增加而提高。 Qwen2.5在理解和專項能力任務上表現出強大的多語言性能,而Gemma2在生成任務上表現出色。閉源模型整體優於開源模型。
P-MMEval的推出為大模型的多語言能力評估提供了新的工具和方法,有助於推動多語言NLP技術的發展和應用。
資料集連結:
https://www.modelscope.cn/datasets/modelscope/P-MMEval
P-MMEval的開源,為大型語言模型的多語言能力評估提供了一個更全面、更標準化的基準。其涵蓋的語言範圍廣,任務類型多樣,為研究人員和開發者提供了寶貴的資源,推動了多語言NLP領域的發展。 期待未來P-MMEval能夠持續完善,更好地服務多語言LLM的評估與改進。