Apple は最近、メモリに制約のあるデバイスにおける大規模な言語モデルの効率を大幅に向上させる研究結果を発表しました。この研究では、モデルのパラメータをフラッシュ メモリに巧みに保存し、必要に応じてオンデマンドで DRAM にロードすることで、メモリのボトルネック問題を効果的に解決し、一連の最適化戦略を通じて推論速度の大幅な飛躍を達成しました。この技術的進歩は、モバイル デバイスや組み込みシステムなどのリソースに制約のある環境で大規模な言語モデルを適用する道を切り開き、重要な実用的意義をもたらします。
Appleの最新の研究では、デバイスのメモリが限られている場合、モデルパラメータをフラッシュメモリに保存し、推論中にオンデマンドでDRAMにロードすることで、大規模な言語モデルの動作効率を向上させることに成功し、推論速度が25倍向上したと指摘しています。 。この方法では、推論コスト モデルが最適化され、データ転送量が削減され、ウィンドウ処理戦略と行と列のバンドル テクノロジが導入され、メモリ容量が限られたデバイスで利用可能な DRAM 容量の 2 倍のモデルを実行できるようになります。単純なロード方法と比較して、CPU と GPU の推論速度はそれぞれ 4 ~ 5 倍と 20 ~ 25 倍向上します。同時に、スパース認識、コンテキスト適応ロード、およびハードウェア指向の設計を組み合わせて、メモリが限られたデバイス上で大規模な言語モデルを推論することで、新たな可能性をもたらします。詳細な論文は [こちら](https://arxiv.org/pdf/2312.11514.pdf) でご覧いただけます。この研究結果は、速度の大幅な向上を達成しただけでなく、より重要なことに、より広範囲のデバイスに大規模な言語モデルを適用できる可能性を提供し、AI テクノロジーが将来的により普及し、便利になることを示しています。 Apple のこのイノベーションは、AI 分野の発展に新たな方向性をもたらします。