Alibaba DAMO Academy e a comunidade MoDa ModelScope abriram em conjunto o código-fonte de um novo conjunto de testes de benchmark multilíngue P-MMEval, que visa avaliar de forma mais abrangente as capacidades multilíngues de grandes modelos de linguagem (LLM) e comparar suas capacidades de transferência entre idiomas. O conjunto de testes cobre um conjunto de dados eficiente de habilidades básicas e especializadas, garantindo uma cobertura multilíngue consistente e fornecendo amostras paralelas em vários idiomas, suportando até 10 idiomas de 8 famílias de idiomas diferentes. O P-MMEval foi lançado para resolver deficiências na avaliação LLM atual, como a falta de resultados de avaliação multilíngues precisos e paralelos e a inconsistência na cobertura multilíngue dos conjuntos de benchmarks existentes.
Alibaba DAMO Academy e a comunidade MoDa ModelScope abriram em conjunto um novo conjunto de testes de benchmark multilíngue P-MMEval, que visa avaliar de forma mais abrangente as capacidades multilíngues de grandes modelos de linguagem (LLM) e comparar suas capacidades de transferência entre idiomas. O conjunto de testes cobre um conjunto de dados eficiente de habilidades básicas e especializadas, garantindo uma cobertura multilíngue consistente e fornecendo amostras paralelas em vários idiomas, suportando até 10 idiomas de 8 famílias de idiomas diferentes. O P-MMEval foi lançado para resolver deficiências na avaliação LLM atual, como a falta de resultados de avaliação multilíngues precisos e paralelos e a inconsistência na cobertura multilíngue dos conjuntos de benchmarks existentes.
P-MMEval seleciona conjuntos de testes de benchmark disponíveis e razoáveis com base em um método baseado em teste de significância, integra tarefas básicas de processamento de linguagem natural e tarefas de avaliação específicas de habilidades, garante a consistência da cobertura de idioma para cada tarefa e fornece amostras paralelas cruzadas de idiomas para permitir comparações consistentes. Para diversidade de tarefas, o P-MMEval cobre duas tarefas básicas principais da PNL (geração e compreensão), bem como as cinco capacidades principais do LLM atual. Em termos de diversidade linguística, o P-MMEval unifica dez línguas diferentes abrangendo oito famílias linguísticas.
O conjunto de dados P-MMEval foi integrado às estruturas de avaliação do sistema de avaliação Sinan OpenCompass e EvalScope, e as tarefas de avaliação podem ser realizadas usando essas duas estruturas. OpenCompass fornece uma plataforma aberta de avaliação de grandes modelos de código aberto, eficiente e abrangente que oferece suporte à avaliação completa de grandes modelos de linguagem, modelos multimodais e vários modelos, e publica regularmente listas de resultados de avaliação. O P-MMEval também foi conectado pela primeira vez ao sistema de avaliação OpenCompass e pode usar a ferramenta de código aberto Sinan OpenCompass para concluir tarefas de avaliação.
Os pesquisadores avaliaram o desempenho de vários modelos representativos de ajuste de instruções, incluindo modelos de código fechado GPT-4o, Claude-3.5 e modelos de código aberto LLaMA3.1, LLaMA3.2, Qwen2.5, etc. Os resultados experimentais mostram que, exceto para a série LLaMA3.2, as capacidades multilíngues de todos os modelos melhoram à medida que o tamanho do modelo aumenta. Qwen2.5 apresenta forte desempenho multilíngue em tarefas de compreensão e especialização, enquanto Gemma2 apresenta bom desempenho em tarefas de geração. Os modelos de código fechado são geralmente melhores que os modelos de código aberto.
O lançamento do P-MMEval fornece novas ferramentas e métodos para avaliação de habilidades multilíngues de grandes modelos, ajudando a promover o desenvolvimento e a aplicação de tecnologia de PNL multilíngue.
Link do conjunto de dados:
https://www.modelscope.cn/datasets/modelscope/P-MMEval
O código aberto do P-MMEval fornece uma referência mais abrangente e padronizada para avaliação de capacidade multilíngue de grandes modelos de linguagem. Abrange uma ampla gama de idiomas e diversos tipos de tarefas, fornecendo recursos valiosos para pesquisadores e desenvolvedores e promovendo o desenvolvimento do campo da PNL multilíngue. Esperamos que o P-MMEval seja continuamente melhorado no futuro para melhor servir a avaliação e melhoria do LLM multilíngue.