Alibaba DAMO 아카데미와 MoDa 커뮤니티 ModelScope는 LLM(대형 언어 모델)의 다국어 기능을 보다 포괄적으로 평가하고 언어 간 전송 기능을 비교하는 것을 목표로 하는 새로운 다국어 벤치마크 테스트 세트 P-MMEval을 공동으로 오픈소스화했습니다. 테스트 세트는 기본 및 전문 기능의 효율적인 데이터 세트를 다루며 일관된 다국어 적용 범위를 보장하고 여러 언어에 걸쳐 병렬 샘플을 제공하며 8개 언어군에서 최대 10개 언어를 지원합니다. P-MMEval은 정확하고 병렬적인 다국어 평가 결과가 부족하고 기존 벤치마크 세트의 다국어 적용 범위가 일관되지 않는 등 현재 LLM 평가의 단점을 해결하기 위해 출시되었습니다.
Alibaba DAMO 아카데미와 MoDa 커뮤니티 ModelScope는 LLM(대형 언어 모델)의 다국어 기능을 보다 포괄적으로 평가하고 언어 간 전송 기능을 비교하는 것을 목표로 하는 새로운 다국어 벤치마크 테스트 세트 P-MMEval을 공동으로 오픈소스화했습니다. 테스트 세트는 기본 및 전문 기능의 효율적인 데이터 세트를 다루며 일관된 다국어 적용 범위를 보장하고 여러 언어에 걸쳐 병렬 샘플을 제공하며 8개 언어군에서 최대 10개 언어를 지원합니다. P-MMEval은 정확하고 병렬적인 다국어 평가 결과가 부족하고 기존 벤치마크 세트의 다국어 적용 범위가 일관되지 않는 등 현재 LLM 평가의 단점을 해결하기 위해 출시되었습니다.
P-MMEval은 유의성 테스트 기반 방법을 기반으로 사용 가능하고 합리적인 벤치마크 테스트 세트를 선택하고 기본적인 자연어 처리 작업과 능력별 평가 작업을 통합하며 각 작업에 대한 언어 적용 범위의 일관성을 보장하고 언어의 교차 병렬 샘플을 제공합니다. 일관된 비교가 가능하도록 합니다. 작업 다양성을 위해 P-MMEval은 두 가지 주요 기본 NLP 작업(생성 및 이해)과 현재 LLM의 5가지 핵심 기능을 다룹니다. 언어 다양성 측면에서 P-MMEval은 8개 언어군을 포괄하는 10개 언어를 통합합니다.
P-MMEval 데이터 세트는 Sinan 평가 시스템 OpenCompass 및 EvalScope 평가 프레임워크에 통합되었으며, 이 두 프레임워크를 사용하여 평가 작업을 수행할 수 있습니다. OpenCompass는 대규모 언어 모델, 다중 모달 모델, 다양한 모델에 대한 원스톱 평가를 지원하고 정기적으로 평가 결과 목록을 게시하는 효율적이고 포괄적인 오픈 소스 대형 모델 평가 개방형 플랫폼을 제공합니다. P-MMEval은 처음으로 OpenCompass 평가 시스템에 연결되었으며 Sinan OpenCompass 오픈 소스 도구를 사용하여 평가 작업을 완료할 수 있습니다.
연구원들은 폐쇄 소스 모델 GPT-4o, Claude-3.5 및 오픈 소스 모델 LLaMA3.1, LLaMA3.2, Qwen2.5 등을 포함한 여러 대표적인 명령 튜닝 모델의 성능을 평가했습니다. 실험 결과, LLaMA3.2 시리즈를 제외한 모든 모델의 다국어 기능은 모델 크기가 커질수록 향상되는 것으로 나타났습니다. Qwen2.5는 이해 및 전문화 작업에서 강력한 다국어 성능을 보여주는 반면 Gemma2는 생성 작업에서 좋은 성능을 보여줍니다. 폐쇄 소스 모델은 일반적으로 오픈 소스 모델보다 우수합니다.
P-MMEVal의 출시는 대형 모델의 다국어 능력 평가를 위한 새로운 도구와 방법을 제공하여 다국어 NLP 기술의 개발 및 적용을 촉진하는 데 도움이 됩니다.
데이터세트 링크:
https://www.modelscope.cn/datasets/modelscope/P-MMEVal
P-MMeval의 오픈 소스는 대규모 언어 모델의 다국어 기능 평가를 위한 보다 포괄적이고 표준화된 벤치마크를 제공합니다. 광범위한 언어와 다양한 작업 유형을 다루며 연구자와 개발자에게 귀중한 리소스를 제공하고 다국어 NLP 분야의 발전을 촉진합니다. 우리는 다국어 LLM의 평가 및 개선에 더 나은 서비스를 제공하기 위해 앞으로도 P-MMeval이 지속적으로 개선되기를 기대합니다.