Generative LLM PowerInfer: 単一の GPU で実行され、機械学習モデルの推論速度が 11 倍向上します

著者：Eve Cole 更新時間：2025-01-17 17:00:02

生成大規模言語モデル (LLM) はますます広く使用されており、その効率的な動作は強力なコンピューティング能力に依存しています。 PowerInfer は、通常のコンピュータでの LLM の実行速度と効率を向上させるために設計された革新的な GPU-CPU ハイブリッド推論エンジンです。 PowerInfer は、CPU と GPU の利点を巧みに利用して、コールドでアクティブ化されたニューロンを CPU にプリロードし、ホットでアクティブ化されたニューロンを GPU にプリロードすることで、高速なアクセスと計算を実現します。このテクノロジーは、コンピューティングリソースが限られているデバイス上の LLM のパフォーマンスのボトルネックを打破し、より便利で効率的なエクスペリエンスをユーザーに提供します。

生成大規模言語モデルは、複雑な自然言語処理、創造的な文章、質問応答、コード生成など、さまざまなタスクにおいて優れたパフォーマンスを発揮することで知られています。 LLM は、消費者向けの GPU を搭載した家庭用 PC など、使いやすいローカルシステム上で実行されています。 PowerInfer は、この理解を利用した GPU-CPU ハイブリッド推論エンジンであり、計算のためにコールドでアクティブ化されたニューロンを CPU にプリロードし、即時アクセスのためにホットでアクティブ化されたニューロンを GPU にロードします。評価の結果、PowerInfer は、モデルの忠実性を維持しながら、現在の llama.cpp システムより 11.69 倍高速に実行されることも示しました。要約すると、PowerInfer は LLM 推論速度を大幅に向上させ、限られた GPU 機能を備えたデスクトップコンピューターとしてのパフォーマンスを実証します。

PowerInfer の登場は、通常のコンピュータでの LLM の適用における新たなマイルストーンを示します。パフォーマンスの大幅な向上とモデルの忠実度の維持により、大多数のユーザーに、よりスムーズで便利な AI エクスペリエンスがもたらされ、将来の LLM アプリケーションの可能性がさらに高まることも示唆されています。