Академия Alibaba Damo и сообщество MoDa ModelScope совместно открыли исходный код нового многоязычного тестового набора P-MMEval, целью которого является более всесторонняя оценка многоязычных возможностей больших языковых моделей (LLM) и сравнение их возможностей межъязыкового перевода. Набор тестов охватывает эффективный набор данных об основных и специализированных способностях, обеспечивая согласованное многоязычное покрытие и предоставляя параллельные образцы для нескольких языков, поддерживая до 10 языков из 8 различных языковых семей. P-MMEval был запущен для устранения недостатков текущей оценки LLM, таких как отсутствие точных и параллельных результатов многоязычной оценки и непоследовательность в многоязычном охвате существующих наборов тестов.
Академия Alibaba Damo и сообщество MoDa ModelScope совместно открыли исходный код нового многоязычного тестового набора P-MMEval, целью которого является более всесторонняя оценка многоязычных возможностей больших языковых моделей (LLM) и сравнение их возможностей межъязыкового перевода. Набор тестов охватывает эффективный набор данных об основных и специализированных способностях, обеспечивая согласованное многоязычное покрытие и предоставляя параллельные образцы для нескольких языков, поддерживая до 10 языков из 8 различных языковых семей. P-MMEval был запущен для устранения недостатков текущей оценки LLM, таких как отсутствие точных и параллельных результатов многоязычной оценки и непоследовательность в многоязычном охвате существующих наборов тестов.
P-MMEval выбирает доступные и разумные наборы эталонных тестов на основе метода, основанного на тесте значимости, объединяет основные задачи обработки естественного языка и задачи оценки конкретных способностей, обеспечивает согласованность языкового покрытия каждой задачи и предоставляет кросс-параллельные образцы языков. чтобы обеспечить последовательное сравнение. Что касается разнообразия задач, P-MMEval охватывает две ключевые базовые задачи НЛП (генерация и понимание), а также пять основных возможностей текущего LLM. С точки зрения языкового разнообразия, P-MMEval объединяет десять разных языков, охватывающих восемь языковых семей.
Набор данных P-MMEval был интегрирован в систему оценки Sinan OpenCompass и среды оценки EvalScope, и задачи оценки могут выполняться с использованием этих двух платформ. OpenCompass предоставляет эффективную и комплексную открытую платформу для оценки больших моделей с открытым исходным кодом, которая поддерживает комплексную оценку больших языковых моделей, мультимодальных моделей и различных моделей, а также регулярно публикует списки результатов оценки. P-MMEval также впервые подключен к системе оценки OpenCompass и может использовать инструмент с открытым исходным кодом Sinan OpenCompass для выполнения задач оценки.
Исследователи оценили производительность нескольких типичных моделей настройки инструкций, включая модели с закрытым исходным кодом GPT-4o, Claude-3.5 и модели с открытым исходным кодом LLaMA3.1, LLaMA3.2, Qwen2.5 и т. д. Результаты экспериментов показывают, что, за исключением серии LLaMA3.2, многоязычные возможности всех моделей улучшаются по мере увеличения размера модели. Qwen2.5 демонстрирует высокие результаты при многоязычном решении задач понимания и специализации, а Gemma2 хорошо справляется с задачами генерации. Модели с закрытым исходным кодом обычно лучше моделей с открытым исходным кодом.
Запуск P-MMEval предоставляет новые инструменты и методы для оценки многоязычных способностей крупных моделей, помогая продвигать разработку и применение многоязычной технологии НЛП.
Ссылка на набор данных:
https://www.modelscope.cn/datasets/modelscope/P-MMEval
Открытый исходный код P-MMEval обеспечивает более полный и стандартизированный тест для оценки многоязычных возможностей больших языковых моделей. Он охватывает широкий спектр языков и разнообразные типы задач, предоставляя ценные ресурсы для исследователей и разработчиков и способствуя развитию области многоязычного НЛП. Мы надеемся, что P-MMEval будет постоянно совершенствоваться в будущем, чтобы лучше служить оценке и совершенствованию многоязычного LLM.