阿里巴巴达摩院和魔搭社区ModelScope联合开源了新的多语言基准测试集P-MMEval,旨在更全面地评估大型语言模型(LLM)的多语言能力,并比较其跨语言迁移能力。该测试集涵盖了基础和专项能力的高效数据集,确保了多语言覆盖的一致性,并提供了跨多种语言的并行样本,支持高达10种语言,来自8个不同的语族。P-MMEval的推出旨在解决当前LLM评估中存在的不足,例如缺乏准确且并行的多语言评估结果,以及现有基准测试集在多语言覆盖方面的不一致性。
阿里巴巴达摩院和魔搭社区ModelScope联合开源了新的多语言基准测试集P-MMEval,旨在更全面地评估大型语言模型(LLM)的多语言能力,并比较其跨语言迁移能力。该测试集涵盖了基础和专项能力的高效数据集,确保了多语言覆盖的一致性,并提供了跨多种语言的并行样本,支持高达10种语言,来自8个不同的语族。P-MMEval的推出旨在解决当前LLM评估中存在的不足,例如缺乏准确且并行的多语言评估结果,以及现有基准测试集在多语言覆盖方面的不一致性。
P-MMEval基于一种基于显著性检验的方法挑选可用且合理的基准测试集,整合了基础自然语言处理任务和能力特定的评估任务,确保每个任务在语言覆盖上的一致性,并提供跨语言的平行样本,以便进行一致的比较。对于任务多样性,P-MMEval涵盖了两个关键的基础NLP任务(生成和理解)以及当前LLM的五种核心能力。在语言多样性方面,P-MMEval统一了涵盖八个语系的十种不同语言。
P-MMEval数据集已经集成到司南评测体系OpenCompass和EvalScope评测框架中,使用这两个框架均可以执行评测任务。OpenCompass提供了一个开源、高效、全面的大模型评测开放平台,支持大语言模型、多模态模型各类模型的一站式评测,并定期公布评测结果榜单。P-MMEval也在第一时间接入了OpenCompass的评测体系,可使用司南OpenCompass开源工具完成评测任务。
研究人员评估了几种代表性的指令调优模型的性能,包括闭源模型GPT-4o、Claude-3.5和开源模型LLaMA3.1、LLaMA3.2、Qwen2.5等。实验结果表明,除了LLaMA3.2系列外,所有模型的多语言能力随着模型规模的增加而提高。Qwen2.5在理解和专项能力任务上表现出强大的多语言性能,而Gemma2在生成任务上表现出色。闭源模型总体上优于开源模型。
P-MMEval的推出为大模型的多语言能力评估提供了新的工具和方法,有助于推动多语言NLP技术的发展和应用。
数据集链接:
https://www.modelscope.cn/datasets/modelscope/P-MMEval
P-MMEval的开源,为大型语言模型的多语言能力评估提供了一个更全面、更标准化的基准。其涵盖的语言范围广,任务类型多样,为研究人员和开发者提供了宝贵的资源,推动了多语言NLP领域的发展。 期待未来P-MMEval能够不断完善,更好地服务于多语言LLM的评估和改进。