Языковые модели теперь способны решать задачи, требующие работы с длинными последовательностями, состоящими из сотен тысяч токенов. Однако они часто терпят неудачу при выполнении задач, требующих многократного использования простых правил, даже при выполнении последовательностей, которые намного короче тех, которые наблюдаются во время обучения. Например, современные LLM могут найти общие элементы в двух списках, содержащих до 20 элементов, но терпят неудачу, когда списки содержат 80 элементов. В этой статье мы представляем MLissard, многоязычный тест, предназначенный для оценки способности моделей обрабатывать и генерировать тексты различной длины и предлагающий механизм управления сложностью последовательностей.
Наша оценка моделей с открытым исходным кодом и проприетарных моделей показывает последовательное снижение производительности для всех моделей и языков по мере увеличения сложности последовательности. Удивительно, но использование контекстных примеров на языках, отличных от английского, помогает значительно повысить эффективность экстраполяции.
В папке data/(task)/ вы найдете наборы данных для оценки с помощью MLissard. Файлы имеют формат .json и содержат краткое описание задачи, сопровождаемое контекстными примерами целевого языка. Поле «test_examples» содержит тестовые примеры, состоящие из входных данных, цели, длины (len) и ячейки, принадлежащей этой длине.
В результатах/(задача)/GPT-4/ можно найти ответы моделей GPT-4 и Llama-3, а также абляционные тесты, папки разделены по задачам.
Папка src/(task)/ содержит файлы .py для создания новых примеров или расширения MLissard. Для выполнения: python <имя_задачи>.py --output_path=my_output_path