Alibaba Damo Academy y la comunidad MoDa ModelScope abrieron conjuntamente un nuevo conjunto de pruebas de referencia multilingüe P-MMEval, cuyo objetivo es evaluar de manera más integral las capacidades multilingües de los modelos de lenguajes grandes (LLM) y comparar sus capacidades de transferencia entre idiomas. El conjunto de pruebas cubre un conjunto de datos eficiente de habilidades básicas y especializadas, lo que garantiza una cobertura multilingüe consistente y proporciona muestras paralelas en varios idiomas, admitiendo hasta 10 idiomas de 8 familias lingüísticas diferentes. P-MMEval se lanzó para abordar las deficiencias en la evaluación LLM actual, como la falta de resultados de evaluación precisos y paralelos en varios idiomas y la inconsistencia en la cobertura multilingüe de los conjuntos de puntos de referencia existentes.
Alibaba Damo Academy y la comunidad MoDa ModelScope abrieron conjuntamente un nuevo conjunto de pruebas de referencia multilingüe P-MMEval, cuyo objetivo es evaluar de manera más integral las capacidades multilingües de los modelos de lenguajes grandes (LLM) y comparar sus capacidades de transferencia entre idiomas. El conjunto de pruebas cubre un conjunto de datos eficiente de habilidades básicas y especializadas, lo que garantiza una cobertura multilingüe consistente y proporciona muestras paralelas en varios idiomas, admitiendo hasta 10 idiomas de 8 familias lingüísticas diferentes. P-MMEval se lanzó para abordar las deficiencias en la evaluación LLM actual, como la falta de resultados de evaluación precisos y paralelos en varios idiomas y la inconsistencia en la cobertura multilingüe de los conjuntos de puntos de referencia existentes.
P-MMEval selecciona conjuntos de pruebas de referencia disponibles y razonables basándose en un método basado en pruebas de significancia, integra tareas básicas de procesamiento del lenguaje natural y tareas de evaluación de habilidades específicas, garantiza la coherencia en la cobertura del idioma de cada tarea y proporciona muestras cruzadas de idiomas. para permitir comparaciones consistentes. Para la diversidad de tareas, P-MMEval cubre dos tareas básicas clave de PNL (generación y comprensión), así como las cinco capacidades centrales del LLM actual. En términos de diversidad lingüística, P-MMEval unifica diez lenguas diferentes que abarcan ocho familias lingüísticas.
El conjunto de datos P-MMEval se ha integrado en los marcos de evaluación OpenCompass y EvalScope del sistema de evaluación Sinan, y las tareas de evaluación se pueden realizar utilizando estos dos marcos. OpenCompass proporciona una plataforma abierta de evaluación de modelos grandes, integral, eficiente y de código abierto que admite la evaluación integral de modelos de lenguaje grandes, modelos multimodales y varios modelos, y publica periódicamente listas de resultados de evaluación. P-MMEval también se ha conectado al sistema de evaluación OpenCompass por primera vez y puede utilizar la herramienta de código abierto Sinan OpenCompass para completar tareas de evaluación.
Los investigadores evaluaron el rendimiento de varios modelos representativos de ajuste de instrucciones, incluidos los modelos de código cerrado GPT-4o, Claude-3.5 y los modelos de código abierto LLaMA3.1, LLaMA3.2, Qwen2.5, etc. Los resultados experimentales muestran que, a excepción de la serie LLaMA3.2, las capacidades multilingües de todos los modelos mejoran a medida que aumenta el tamaño del modelo. Qwen2.5 muestra un sólido desempeño multilingüe en tareas de comprensión y especialización, mientras que Gemma2 se desempeña bien en tareas de generación. Los modelos de código cerrado son generalmente mejores que los modelos de código abierto.
El lanzamiento de P-MMEval proporciona nuevas herramientas y métodos para la evaluación de la capacidad multilingüe de modelos grandes, lo que ayuda a promover el desarrollo y la aplicación de la tecnología PNL multilingüe.
Enlace del conjunto de datos:
https://www.modelscope.cn/datasets/modelscope/P-MMEval
El código abierto de P-MMEval proporciona un punto de referencia más completo y estandarizado para la evaluación de la capacidad multilingüe de modelos de lenguaje grandes. Cubre una amplia gama de idiomas y diversos tipos de tareas, proporcionando recursos valiosos para investigadores y desarrolladores y promoviendo el desarrollo del campo de la PNL multilingüe. Esperamos que P-MMEval se mejore continuamente en el futuro para servir mejor a la evaluación y mejora de LLM multilingüe.