Apple は最近、大規模言語モデル (LLM) の生成速度に大きな進歩を遂げ、NVIDIA と協力してオープン ソース テクノロジ Recurrent Drafter (ReDrafter) を使用して、生成速度をほぼ 3 倍にしました。 ReDrafter は、投機的デコード手法を使用してモデルのトレーニング効率を大幅に向上させ、NVIDIA の TensorRT-LLM 推論高速化フレームワークと統合して、使用コストと遅延をさらに削減します。この協力は開発効率を向上させるだけでなく、より迅速なサービス体験をユーザーに提供し、AIの分野で革新を続けるAppleの決意と強さを示しています。 この記事では、Apple と NVIDIA の協力の詳細と ReDrafter テクノロジーの利点について詳しく説明します。
最近、機械学習の分野における Apple の最新の研究では、NVIDIA との協力により、大規模言語モデル (LLM) の生成速度を 3 倍近く高速化することに成功したことが示されています。この進歩の鍵は、Apple のオープンソース テクノロジ「Recurrent Drafter」(ReDrafter) にあります。このテクノロジは、モデルのトレーニングの効率を大幅に向上させることができる投機的デコード手法を使用しています。
以前は、大規模な言語モデルを作成するプロセスは通常、非常に時間とリソースを消費し、企業は多くの場合、多数のハードウェア デバイスを購入する必要があったため、運用コストが増加していました。 2024 年の初めに、Apple は ReDrafter をリリースしました。これは、再帰的ニューラル ネットワークと動的ツリー アテンション手法を組み合わせて、タグを迅速に生成して検証する技術であり、従来の自動回帰手法と比較してタグ生成速度が 3.5 倍向上しました。
今週、Apple はさらに、NVIDIA との協力により、ReDrafter を NVIDIA の TensorRT-LLM 推論高速化フレームワークに統合すると発表しました。この動きにより、NVIDIA GPU を使用する機械学習開発者は、本番環境で ReDrafter の高速化機能を活用できるようになります。高性能マルチ GPU サーバーは通常高価ですが、この連携により、必要なハードウェアの量を削減しながら遅延を削減できるため、より経済的なソリューションが得られることは注目に値します。
NVIDIA によるベンチマーク テストでは、ReDrafter を使用した生成効率が大幅に向上し、グリーディ エンコーディング モードで 1 秒あたりのトークン生成が 2.7 倍に増加しました。これは、開発者がより短い時間でより多くの結果を得ることができ、ユーザーにより迅速なサービス エクスペリエンスを提供できることを意味します。
Apple は NVIDIA との協力を確認した後、モデルトレーニングの効率を向上させるために Amazon の Trainium2 チップの使用を検討しているとも述べました。 Trainium2を利用した事前トレーニングの効率は、既存のハードウェアと比較して50%向上することが見込まれます。
公式ブログ: https://developer.nvidia.com/blog/nvidia-tensorrt-llm-now-supports-recurrent-drafting-for-optimizing-llm-inference/
ハイライト:
Apple は NVIDIA と提携して、大規模な言語モデルの生成速度をほぼ 3 倍にしました。
オープンソース テクノロジー ReDrafter をリカレント ニューラル ネットワークと組み合わせることで、モデルのトレーニング効率が大幅に向上します。
このコラボレーションは、コストを削減し、機械学習開発者により効率的なソリューションを提供するのに役立ちます。
全体として、Apple と NVIDIA の協力と ReDrafter テクノロジの適用により、大規模な言語モデルの開発と適用に大幅な効率の向上とコストの削減がもたらされました。これは、人工知能分野の技術進歩を促進するだけでなく、開発者とユーザーにとってより便利で経済的なソリューションをもたらし、将来のAIアプリケーションの活発な開発を示しています。