语言模型现在能够解决需要处理由数十万个标记组成的长序列的任务。然而,它们经常无法完成需要重复使用简单规则的任务,甚至是比训练期间短得多的序列。例如,最先进的法学硕士可以在两个列表中找到最多 20 个项目的共同项目,但当列表有 80 个项目时就会失败。在本文中,我们介绍了 MLissard,这是一种多语言基准测试,旨在评估模型处理和生成不同长度文本的能力,并提供控制序列复杂性的机制。
我们对开源和专有模型的评估表明,随着序列复杂性的增加,所有模型和语言的性能都会持续下降。令人惊讶的是,使用英语以外的语言中的上下文示例有助于显着提高外推性能。
在 data/(task)/ 文件夹中,您将找到用于使用 MLissard 进行评估的数据集。这些文件采用 .json 格式,提供任务的简要描述,后跟目标语言的上下文示例。 “test_examples”字段包含由输入、目标、长度(len)和属于该长度的 bin 组成的测试示例。
在 results/(task)/GPT-4/ 中可以找到 GPT-4 和 Llama-3 模型生成的答案以及消融测试,文件夹按任务分隔。
src/(task)/ 文件夹包含用于生成新示例或扩展 MLissard 的 .py 文件。执行: python <task_name>.py --output_path=my_output_path