言語モデルは、数十万のトークンで構成される長いシーケンスを処理する必要があるタスクを解決できるようになりました。ただし、単純なルールを繰り返し使用する必要があるタスクでは、たとえトレーニング中に見られたシーケンスよりもはるかに短いシーケンスであっても、失敗することがよくあります。たとえば、最先端の LLM は、最大 20 個の項目を含む 2 つのリストから共通の項目を見つけることができますが、リストに 80 個の項目がある場合は失敗します。このペーパーでは、さまざまな長さのテキストを処理および生成するモデルの能力を評価するために設計された多言語ベンチマークである MLissard を紹介し、シーケンスの複雑さを制御するメカニズムを提供します。
オープンソース モデルと独自モデルの評価では、シーケンスの複雑さが増すにつれて、すべてのモデルと言語にわたってパフォーマンスが一貫して低下していることがわかりました。驚くべきことに、英語以外の言語でコンテキスト内の例を使用すると、外挿パフォーマンスが大幅に向上します。
data/(task)/ フォルダーには、MLissard で評価するためのデータセットがあります。ファイルは .json 形式で、タスクの簡単な説明と、それに続くターゲット言語のコンテキスト内の例が示されます。 「test_examples」フィールドには、入力、ターゲット、長さ (len)、およびこの長さに属するビンで構成されるテスト サンプルが含まれます。
results/(task)/GPT-4/ では、GPT-4 モデルと Llama-3 モデル、およびアブレーション テストによって生成された回答を見つけることができます。フォルダーはタスクごとに分かれています。
src/(task)/ フォルダーには、新しいサンプルを生成したり MLissard を展開したりするための .py ファイルが含まれています。実行するには: python <task_name>.py --output_path=my_output_path