人工知能技術の急速な発展により、エンタープライズアプリケーションにおける大規模な言語モデル(LLM)の重要性がますます顕著になっています。ただし、これらのモデルの知識の正確性を改善し、それらが生成する幻覚を減らす方法は、現在のAI分野で緊急に解決する必要がある重要な問題になりました。この背景に対して、メタAIの研究チームは革新的なソリューション、つまり「スケーラブルなメモリレイヤー」を提案し、この課題に新しい光をもたらしました。
スケーラブルなメモリレイヤーの設計コンセプトは、推論コンピューティングリソースを追加せずにパラメーターを追加することにより、LLMの学習能力を高めることを目指しています。このアーキテクチャは、効率的な推論速度を維持しながら、言語モデルのパフォーマンスを改善するための新しい方法を開く際に、大規模な事実の知識が必要なアプリケーションシナリオに特に適しています。
従来の言語モデルは、多くの場合、「集中的なレイヤー」を使用して情報をエンコードしますが、複雑な機能を扱うときはうまく機能しますが、巨大なコンピューティングとエネルギー消費ももたらします。対照的に、メモリ層は、より効率的なスパースアクティベーションとキー価値検索メカニズムを採用しており、より低い計算コストで知識のエンコードと検索を可能にします。メモリ使用量の観点からは密な層よりもわずかに高くなっていますが、少数のパラメーターをアクティブにするだけで、コンピューティング効率が大幅に向上します。
メモリ層の概念は長年存在してきましたが、主に現在のハードウェアアクセラレータに完全に適応できなかったため、最新のディープラーニングアーキテクチャへの応用は比較的限られています。現在、高度なLLMは一般に「エキスパートハイブリッド」アーキテクチャを採用していることは注目に値します。これは、いくつかの側面でメモリ層と類似しており、特定のモジュールの専門化を強調しています。
メモリの使用におけるメモリレイヤーの課題を克服するために、Metaの研究チームはいくつかの革新的な改善を行いました。彼らは、メモリレイヤー用の並列化されたアーキテクチャを設計し、モデルを速度で実行し続けながら、複数のGPUに何百万ものキー価値ペアを保存できるようにしました。さらに、チームは、高いメモリ帯域幅操作を処理するための特別なCUDAコアを開発し、パラメーター共有メカニズムを導入し、複数のメモリレイヤーが同じメモリパラメーターのセットを共有できるようにし、リソース利用効率をさらに最適化します。
研究チームは、Llamaモデルの変換を通じていくつかの高密度層を共有メモリ層に置き換えることにより、メモリ強化モデルの包括的なテストを実施しました。実験結果は、特にそのパフォーマンスが密なベースラインモデルを超えるだけでなく、2〜4倍のコンピューティングリソースを使用するモデルに匹敵する複数のタスクで、メモリモデルがうまく機能することを示しています。
この研究では、次世代のAIアーキテクチャの開発の方向性を指摘しています。メタの研究者は、モデルの物忘れと幻覚現象を効果的に減らすために、メモリ層を将来のAIシステムに統合することを強く推奨しています。テクノロジーの継続的な進歩により、スケーラブルなメモリ層は、言語モデルのパフォーマンスを改善し、AIテクノロジーの実用的なアプリケーションに革新的な変化をもたらす上で、より重要な役割を果たすことが期待されています。