最近、ミュンヘン大学、ミュンヘン機械学習センター、およびアドビの研究が実施した共同研究では、長いテキストの概念推論のタスクでGPT-4、ジェミニ、ラマを含む12のトップAI言語モデルのパフォーマンスを評価しました。この研究の結果は驚くべきものです。超長いテキストを処理する能力にもかかわらず、これらのモデルには複雑な論理的推論に大きな欠陥があり、そのパフォーマンスは長いテキストで崖のような減少をしています。 NOLIMAベンチマークシステムを通じて、研究チームはキーワードの複製を巧みに回避し、概念的な関連性におけるモデルの脆弱性を明らかにし、この現象の原因を深く分析しました。
ミュンヘン大学、ミュンヘン機械学習センター、アドビの研究が共同で共同で発表した研究では、最近、GPT-4O、GEMINI1.5PRO、LLAMA-3.3-70Bを含む12のトップAI言語モデルが、長いテキストの概念的推論タスクで明らかな結果に直面していることが示されました。パフォーマンスの減衰。これらのモデルはすべて、少なくとも128,000マーカーのコンテキスト処理をサポートしていますが、それらの深い論理相関機能には依然として基本的な制限があります。
研究チームによって開発されたNOLIMA(テキストマッチングなし)ベンチマークテストシステムは、キーワードの複製の設計を意図的に回避することにより、AIモデルの脆弱性を概念的なつながりの脆弱性を明らかにしています。たとえば、テキストが「semperoperの隣に住んでいる」と説明する場合、モデルは「センペラー師はドレスデンに」と答える前に「ドレスデンにある」という常識を理解する必要があります。
テスト結果は次のように表示されます。
1。**崖のような方法で長いテキストのパフォーマンスが低下します**:コンテキストが2,000から8,000のマークに拡大すると、ほとんどのモデルのパフォーマンスが大幅に低下しました。短いテキストの場合は何ですか。
2。
3。テキストは完璧です。
研究は、モデルが「単語マッチング」の慣性思考に対する過度に依存していることが中核的な問題であると指摘しています。テストが意図的に同じ語彙を除外している場合、たとえ思考チェーン(COT)プロンプトテクノロジーが使用されていても、LLAMA-3.3-70Bの長いテキスト処理能力の改善はまだ制限されています。さらに深刻なのは、無関係なコンテキストで干渉を一致させる単語がある場合、モデルの誤判断を強化することです。
「これは、現在のAIの基本的な矛盾を明らかにしています。コンテキストウィンドウを拡張することは容易ですが、研究者が強調したことは困難です。」 GPT-4Oを例にとると、8,000マークの有効なコンテキスト長に達しますが、クロスパラグラフの概念の統合においてはまだ弱いです。テキストが拡張されると、モデルの注意メカニズムが徐々に「焦点が合っていない」ため、一貫した論理チェーンを維持することが困難になります。
この研究は、AIの開発に関するアラームを鳴らしています。処理長を増やすだけで、推論のボトルネックを突破できません。業界は、モデルアーキテクチャの設計を再検討し、より効率的な情報抽出および関連メカニズムを開発する必要があります。将来的には、AIにパターンマッチングに依存するのではなく、テキストを真に理解させる方法は、長いテキスト処理の限界を突破するための鍵となります。
この研究では、長いテキスト推論における現在のAIモデルの制限を強調し、AIモデルの将来の改善方向の重要な参照を提供します。コンテキストウィンドウのサイズを増やすことは、AIモデルの真の理解を改善するために、より詳細な研究と改善が必要です。