Die Alibaba Damo Academy und die MoDa-Community ModelScope haben gemeinsam ein neues mehrsprachiges Benchmark-Testset P-MMEval als Open-Source-Lösung entwickelt, das darauf abzielt, die Mehrsprachigkeitsfähigkeiten großer Sprachmodelle (LLM) umfassender zu bewerten und ihre sprachübergreifenden Übertragungsfähigkeiten zu vergleichen. Der Testsatz deckt einen effizienten Datensatz grundlegender und spezialisierter Fähigkeiten ab, gewährleistet eine konsistente mehrsprachige Abdeckung und stellt parallele Proben über mehrere Sprachen hinweg bereit und unterstützt bis zu 10 Sprachen aus 8 verschiedenen Sprachfamilien. P-MMEval wurde ins Leben gerufen, um Mängel in der aktuellen LLM-Bewertung zu beheben, wie z. B. das Fehlen genauer und paralleler mehrsprachiger Bewertungsergebnisse und die Inkonsistenz bei der mehrsprachigen Abdeckung bestehender Benchmark-Sets.
Die Alibaba Damo Academy und die MoDa-Community ModelScope haben gemeinsam ein neues mehrsprachiges Benchmark-Testset P-MMEval als Open-Source-Lösung entwickelt, das darauf abzielt, die Mehrsprachigkeitsfähigkeiten großer Sprachmodelle (LLM) umfassender zu bewerten und ihre sprachübergreifenden Übertragungsfähigkeiten zu vergleichen. Der Testsatz deckt einen effizienten Datensatz grundlegender und spezialisierter Fähigkeiten ab, gewährleistet eine konsistente mehrsprachige Abdeckung und stellt parallele Proben über mehrere Sprachen hinweg bereit und unterstützt bis zu 10 Sprachen aus 8 verschiedenen Sprachfamilien. P-MMEval wurde ins Leben gerufen, um Mängel in der aktuellen LLM-Bewertung zu beheben, wie z. B. das Fehlen genauer und paralleler mehrsprachiger Bewertungsergebnisse und die Inkonsistenz bei der mehrsprachigen Abdeckung bestehender Benchmark-Sets.
P-MMEval wählt verfügbare und sinnvolle Benchmark-Testsätze auf der Grundlage einer auf Signifikanztests basierenden Methode aus, integriert grundlegende Aufgaben zur Verarbeitung natürlicher Sprache und fähigkeitsspezifische Bewertungsaufgaben, stellt die Konsistenz der Sprachabdeckung jeder Aufgabe sicher und stellt übergreifende Sprachbeispiele bereit um konsistente Vergleiche zu ermöglichen. Für die Aufgabenvielfalt deckt P-MMEval zwei wichtige grundlegende NLP-Aufgaben (Erzeugung und Verstehen) sowie die fünf Kernfähigkeiten des aktuellen LLM ab. Im Hinblick auf die sprachliche Vielfalt vereint P-MMEval zehn verschiedene Sprachen, die acht Sprachfamilien abdecken.
Der P-MMEval-Datensatz wurde in die Evaluierungsframeworks OpenCompass und EvalScope des Sinan-Evaluierungssystems integriert, und Evaluierungsaufgaben können mit diesen beiden Frameworks durchgeführt werden. OpenCompass bietet eine effiziente und umfassende Open-Source-Plattform für die Evaluierung großer Modelle, die die Evaluierung großer Sprachmodelle, multimodaler Modelle und verschiedener Modelle aus einer Hand unterstützt und regelmäßig Evaluierungsergebnislisten veröffentlicht. P-MMEval wurde erstmals auch an das Evaluierungssystem OpenCompass angeschlossen und kann das Open-Source-Tool Sinan OpenCompass zur Erledigung von Evaluierungsaufgaben nutzen.
Die Forscher bewerteten die Leistung mehrerer repräsentativer Modelle zur Befehlsoptimierung, darunter die Closed-Source-Modelle GPT-4o, Claude-3.5 und die Open-Source-Modelle LLaMA3.1, LLaMA3.2, Qwen2.5 usw. Experimentelle Ergebnisse zeigen, dass mit Ausnahme der LLaMA3.2-Serie die Mehrsprachigkeitsfähigkeiten aller Modelle mit zunehmender Modellgröße verbessert werden. Qwen2.5 zeigt eine starke mehrsprachige Leistung bei Verständnis- und Spezialisierungsaufgaben, während Gemma2 bei Generierungsaufgaben gut abschneidet. Closed-Source-Modelle sind im Allgemeinen besser als Open-Source-Modelle.
Die Einführung von P-MMEval stellt neue Tools und Methoden für die Bewertung der mehrsprachigen Fähigkeiten großer Modelle bereit und trägt so dazu bei, die Entwicklung und Anwendung mehrsprachiger NLP-Technologie zu fördern.
Link zum Datensatz:
https://www.modelscope.cn/datasets/modelscope/P-MMEval
Die offene Quelle von P-MMEval bietet einen umfassenderen und standardisierten Benchmark für die Bewertung der Mehrsprachenfähigkeit großer Sprachmodelle. Es deckt ein breites Spektrum an Sprachen und unterschiedlichen Aufgabentypen ab, stellt wertvolle Ressourcen für Forscher und Entwickler bereit und fördert die Entwicklung des Bereichs mehrsprachiges NLP. Wir freuen uns darauf, dass P-MMEval in Zukunft kontinuierlich verbessert wird, um die Bewertung und Verbesserung des mehrsprachigen LLM besser zu unterstützen.