Alibaba Damo Academy et la communauté MoDa ModelScope ont lancé conjointement un nouvel ensemble de tests de référence multilingue P-MMEval, qui vise à évaluer de manière plus complète les capacités multilingues des grands modèles linguistiques (LLM) et à comparer leurs capacités de transfert multilingue. L'ensemble de tests couvre un ensemble de données efficace de capacités de base et spécialisées, garantissant une couverture multilingue cohérente et fournissant des échantillons parallèles dans plusieurs langues, prenant en charge jusqu'à 10 langues provenant de 8 familles de langues différentes. P-MMEval a été lancé pour combler les lacunes de l'évaluation LLM actuelle, telles que le manque de résultats d'évaluation multilingues précis et parallèles et l'incohérence dans la couverture multilingue des ensembles de référence existants.
Alibaba Damo Academy et la communauté MoDa ModelScope ont lancé conjointement un nouvel ensemble de tests de référence multilingue P-MMEval, qui vise à évaluer de manière plus complète les capacités multilingues des grands modèles linguistiques (LLM) et à comparer leurs capacités de transfert multilingue. L'ensemble de tests couvre un ensemble de données efficace de capacités de base et spécialisées, garantissant une couverture multilingue cohérente et fournissant des échantillons parallèles dans plusieurs langues, prenant en charge jusqu'à 10 langues provenant de 8 familles de langues différentes. P-MMEval a été lancé pour combler les lacunes de l'évaluation LLM actuelle, telles que le manque de résultats d'évaluation multilingues précis et parallèles et l'incohérence dans la couverture multilingue des ensembles de référence existants.
P-MMEval sélectionne des ensembles de tests de référence disponibles et raisonnables sur la base d'une méthode basée sur des tests de signification, intègre des tâches de traitement du langage naturel de base et des tâches d'évaluation spécifiques aux capacités, garantit la cohérence de la couverture linguistique de chaque tâche et fournit des échantillons de langues multi-parallèles. pour permettre des comparaisons cohérentes. Pour la diversité des tâches, P-MMEval couvre deux tâches de base clés de la PNL (génération et compréhension) ainsi que les cinq capacités principales du LLM actuel. En termes de diversité linguistique, P-MMEval unifie dix langues différentes couvrant huit familles linguistiques.
L'ensemble de données P-MMEval a été intégré aux cadres d'évaluation du système d'évaluation Sinan OpenCompass et EvalScope, et les tâches d'évaluation peuvent être effectuées à l'aide de ces deux cadres. OpenCompass fournit une plate-forme ouverte d'évaluation de grands modèles open source, efficace et complète qui prend en charge l'évaluation unique de grands modèles de langage, de modèles multimodaux et de divers modèles, et publie régulièrement des listes de résultats d'évaluation. P-MMEval a également été connecté au système d'évaluation OpenCompass pour la première fois et peut utiliser l'outil open source Sinan OpenCompass pour effectuer des tâches d'évaluation.
Les chercheurs ont évalué les performances de plusieurs modèles représentatifs de réglage des instructions, notamment les modèles fermés GPT-4o, Claude-3.5 et les modèles open source LLaMA3.1, LLaMA3.2, Qwen2.5, etc. Les résultats expérimentaux montrent que, à l'exception de la série LLaMA3.2, les capacités multilingues de tous les modèles s'améliorent à mesure que la taille du modèle augmente. Qwen2.5 affiche de solides performances multilingues sur les tâches de compréhension et de spécialisation, tandis que Gemma2 est performant sur les tâches de génération. Les modèles fermés sont généralement meilleurs que les modèles open source.
Le lancement de P-MMEval fournit de nouveaux outils et méthodes pour l'évaluation des capacités multilingues des grands modèles, contribuant ainsi à promouvoir le développement et l'application de la technologie PNL multilingue.
Lien vers l'ensemble de données :
https://www.modelscope.cn/datasets/modelscope/P-MMEval
L'open source de P-MMEval fournit une référence plus complète et standardisée pour l'évaluation des capacités multilingues des grands modèles linguistiques. Il couvre un large éventail de langages et divers types de tâches, fournissant des ressources précieuses aux chercheurs et aux développeurs et favorisant le développement du domaine du TAL multilingue. Nous espérons que P-MMEval sera continuellement amélioré à l'avenir pour mieux servir l'évaluation et l'amélioration du LLM multilingue.