語言模型現在能夠解決需要處理由數十萬個標記組成的長序列的任務。然而,它們經常無法完成需要重複使用簡單規則的任務,甚至是比訓練期間短得多的序列。例如,最先進的法學碩士可以在兩個清單中找到最多 20 個項目的共同項目,但當清單有 80 個項目時就會失敗。在本文中,我們介紹了 MLissard,這是一種多語言基準測試,旨在評估模型處理和產生不同長度文字的能力,並提供控制序列複雜性的機制。
我們對開源和專有模型的評估表明,隨著序列複雜性的增加,所有模型和語言的表現都會持續下降。令人驚訝的是,使用英語以外的語言中的上下文範例有助於顯著提高外推表現。
在 data/(task)/ 資料夾中,您將找到用於使用 MLissard 進行評估的資料集。這些文件採用 .json 格式,提供任務的簡要描述,後接目標語言的上下文範例。 「test_examples」欄位包含由輸入、目標、長度(len)和屬於該長度的 bin 組成的測試範例。
在 results/(task)/GPT-4/ 中可以找到 GPT-4 和 Llama-3 模型產生的答案以及消融測試,資料夾按任務分隔。
src/(task)/ 資料夾包含用於產生新範例或擴充 MLissard 的 .py 檔案。執行: python <task_name>.py --output_path=my_output_path