非常に長いコンテキスト ウィンドウを持つ大規模言語モデル (LLM) が急速に開発されており、その情報処理能力が広く注目を集めています。ただし、これらのモデルが大量の情報を理解して利用する能力を評価する際には課題があります。 Google DeepMind の研究者は、ロングコンテキスト LLM の推論機能をより深く評価し、将来のモデル改善の方向性を示すことを目的として、この目的のために Michelangelo ベンチマークを開発しました。
最近、非常に長いコンテキスト ウィンドウを持つ大規模言語モデル (LLM) が話題になっています。これらのモデルは、単一のプロンプトで数十万、さらには数百万のトークンを処理できるため、開発者に多くの新しい可能性が開かれます。しかし、これらの長いコンテキストの LLM は、受け取った大量の情報をどの程度理解して活用できるでしょうか? この問題を解決するために、Google DeepMind の研究者は、長いコンテキストのプッシュ機能を評価するように設計された Michelangelo と呼ばれる新しいベンチマークを立ち上げました。その結果、現在の最先端モデルは、大量のコンテキスト データから情報を抽出する点ではある程度の進歩はあるものの、推論やデータの構造の理解が必要なタスクでは依然として困難を抱えていることがわかりました。長いコンテキスト ウィンドウを持つ LLM が登場するにつれて、研究者は、これらのモデルの機能を評価するには新しいベンチマークが必要であることに気づき始めました。既存の評価は主に、「干し草の山から針を見つける」評価などの情報検索タスク、つまり多数のコンテキストで特定の情報を探すことに焦点を当てています。ただし、単純な検索は、モデルが全体的なコンテキストを理解したことにはなりません。これらの問題に対処するために、ミケランジェロは、長いテキストを処理するときにモデルがより深い推論と合成を実行することを必要とする複雑なタスクを設定することによって、新しい評価方法を提案しました。たとえば、評価フレームワークには、プログラミングと自然言語に関連する複数のタスクが含まれています。これらのタスクは、モデルの記憶能力をテストするだけでなく、情報の理解と処理の深さに重点を置いています。ミケランジェロの評価タスクでは、モデルは 3 つの基本的な長い文書合成タスク、つまり「潜在リスト」、「マルチラウンド相互参照解決」、およびその他のさまざまなアプリケーション シナリオを解決する必要があります。これらのタスクは、長いドキュメントでのモデルのパフォーマンスを評価するのに役立つだけでなく、推論と合成におけるモデルの欠点も明らかにします。 1 つ目は「潜在的なリスト」です。モデルは Python リスト上の長い操作リストを処理し、無関係なステートメントや冗長なステートメントを除外してリストの最終状態を決定する必要があります。 2 番目の項目は「マルチターン参照解決」です。モデルは会話の構造を理解し、長い会話の中で参照問題を解決する必要があります。 3 番目の項目は「わかりません」です。複数の選択式質問に回答する場合、モデルはその回答が文脈に含まれているかどうかを判断し、「わかりません」に正確に応答できる必要があります。研究者らは、Gemini、GPT-4、Claude のさまざまなバージョンを含む上位 10 個の LLM に対してミケランジェロを評価し、最大 100 万トークンのコンテキストでモデルをテストしました。 Gemini モデルは MRCR で最高のパフォーマンスを発揮し、GPT モデルは潜在リストで優れたパフォーマンスを発揮し、Claude3.5Sonnet は IDK で最高のスコアを獲得しました。
Downcodes の編集者は次のように結論付けています。Michelangelo ベンチマークの出現は、超ロング コンテキスト LLM を評価するための新しい視点を提供し、複雑な推論機能における現在のモデルの欠点も指摘しています。将来的には、より複雑なタスクやアプリケーション シナリオにうまく対処できるように、より強力な LLM が推論機能のブレークスルーを達成する必要があります。今後の研究でさらなる驚きがもたらされることを楽しみにしています。