DeepMind が新しいベンチマーク Michelangelo を発表: 長いコンテキストの LLM 推論の欠陥が明らかに

著者：Eve Cole 更新時間：2025-03-02 18:50:02

非常に長いコンテキストウィンドウを持つ大規模言語モデル (LLM) が急速に開発されており、その情報処理能力が広く注目を集めています。ただし、これらのモデルが大量の情報を理解して利用する能力を評価する際には課題があります。 Google DeepMind の研究者は、ロングコンテキスト LLM の推論機能をより深く評価し、将来のモデル改善の方向性を示すことを目的として、この目的のために Michelangelo ベンチマークを開発しました。

最近、非常に長いコンテキストウィンドウを持つ大規模言語モデル (LLM) が話題になっています。これらのモデルは、単一のプロンプトで数十万、さらには数百万のトークンを処理できるため、開発者に多くの新しい可能性が開かれます。しかし、これらの長いコンテキストの LLM は、受け取った大量の情報をどの程度理解して活用できるでしょうか? この問題を解決するために、Google DeepMind の研究者は、長いコンテキストのプッシュ機能を評価するように設計された Michelangelo と呼ばれる新しいベンチマークを立ち上げました。その結果、現在の最先端モデルは、大量のコンテキストデータから情報を抽出する点ではある程度の進歩はあるものの、推論やデータの構造の理解が必要なタスクでは依然として困難を抱えていることがわかりました。長いコンテキストウィンドウを持つ LLM が登場するにつれて、研究者は、これらのモデルの機能を評価するには新しいベンチマークが必要であることに気づき始めました。既存の評価は主に、「干し草の山から針を見つける」評価などの情報検索タスク、つまり多数のコンテキストで特定の情報を探すことに焦点を当てています。ただし、単純な検索は、モデルが全体的なコンテキストを理解したことにはなりません。これらの問題に対処するために、ミケランジェロは、長いテキストを処理するときにモデルがより深い推論と合成を実行することを必要とする複雑なタスクを設定することによって、新しい評価方法を提案しました。たとえば、評価フレームワークには、プログラミングと自然言語に関連する複数のタスクが含まれています。これらのタスクは、モデルの記憶能力をテストするだけでなく、情報の理解と処理の深さに重点を置いています。ミケランジェロの評価タスクでは、モデルは 3 つの基本的な長い文書合成タスク、つまり「潜在リスト」、「マルチラウンド相互参照解決」、およびその他のさまざまなアプリケーションシナリオを解決する必要があります。これらのタスクは、長いドキュメントでのモデルのパフォーマンスを評価するのに役立つだけでなく、推論と合成におけるモデルの欠点も明らかにします。 1 つ目は「潜在的なリスト」です。モデルは Python リスト上の長い操作リストを処理し、無関係なステートメントや冗長なステートメントを除外してリストの最終状態を決定する必要があります。 2 番目の項目は「マルチターン参照解決」です。モデルは会話の構造を理解し、長い会話の中で参照問題を解決する必要があります。 3 番目の項目は「わかりません」です。複数の選択式質問に回答する場合、モデルはその回答が文脈に含まれているかどうかを判断し、「わかりません」に正確に応答できる必要があります。研究者らは、Gemini、GPT-4、Claude のさまざまなバージョンを含む上位 10 個の LLM に対してミケランジェロを評価し、最大 100 万トークンのコンテキストでモデルをテストしました。 Gemini モデルは MRCR で最高のパフォーマンスを発揮し、GPT モデルは潜在リストで優れたパフォーマンスを発揮し、Claude3.5Sonnet は IDK で最高のスコアを獲得しました。

研究者らは、これらのモデルが長いコンテキストをどの程度うまく処理できるかはさまざまですが、より複雑な推論タスクに直面すると全体的なパフォーマンスが大幅に低下することを発見しました。これは、コンテキストウィンドウが非常に長い場合でも、現在の LLM の推論機能を改善する必要があることを意味します。研究者らはミケランジェロの評価プロジェクトを拡大し続ける予定で、他の研究者がモデルをテストするために直接利用できるようにしたいと考えている。論文の入り口: https://arxiv.org/abs/2409.12640 焦点: ロングコンテキスト LLM の新しいベンチマークである Michelangelo は、モデルの推論能力を評価するように設計されています。 ? 調査によると、既存のモデルは複雑な推論タスクを処理するときにパフォーマンスが大幅に低下します。研究者らは、モデルの推論能力に関するさらなる研究を促進するために、評価プロジェクトを拡大する予定です。

Downcodes の編集者は次のように結論付けています。Michelangelo ベンチマークの出現は、超ロングコンテキスト LLM を評価するための新しい視点を提供し、複雑な推論機能における現在のモデルの欠点も指摘しています。将来的には、より複雑なタスクやアプリケーションシナリオにうまく対処できるように、より強力な LLM が推論機能のブレークスルーを達成する必要があります。今後の研究でさらなる驚きがもたらされることを楽しみにしています。