NVIDIA が Hugging Face と提携して効率的な推論サービスを開始し、AI モデルのトークン処理効率を 5 倍に向上

著者：Eve Cole 更新時間：2024-12-12 20:00:02

Hugging Face と NVIDIA は提携して革新的な Inference-as-a-Service を立ち上げます。これは、NVIDIA の NIM テクノロジーを使用して AI モデルの展開とプロトタイピングを大幅にスピードアップします。このサービスは SIGGRAPH2024 カンファレンスで正式にリリースされ、AI モデルの導入効率が大幅に向上しました。開発者は、Hugging Face Hub を通じて、Llama2 や Mistral AI モデルなどの強力なオープンソース AI モデルに簡単にアクセスしてデプロイでき、NVIDIA の NIM マイクロサービスはこれらのモデルの最適なパフォーマンスを保証します。

最近、オープンソースプラットフォームの Hugging Face と NVIDIA は、NVIDIA の NIM テクノロジによって推進されるエキサイティングな新サービス、Inference-as-a-Service を発表しました。新しいサービスの開始により、開発者はより迅速にプロトタイプを作成し、Hugging Face Hub で提供されるオープンソース AI モデルを使用して、効率的に展開できるようになります。

このニュースは、開催中の SIGGRAPH2024 カンファレンスで発表されました。このカンファレンスにはコンピューターグラフィックスとインタラクティブテクノロジの専門家が多数集まり、この時点で NVIDIA と Hugging Face の協力が発表され、開発者に新たな機会がもたらされました。このサービスを通じて、開発者は Llama2 や Mistral AI モデルなどの強力なラージ言語モデル (LLM) を簡単にデプロイでき、NVIDIA の NIM マイクロサービスがこれらのモデルの最適化を提供します。

具体的には、NIM としてアクセスすると、70 億パラメータの Llama3 モデルを標準の NVIDIA H100 Tensor コア GPU システムに展開した場合より 5 倍高速に処理でき、これは間違いなく大幅な改善です。また、今回の新サービスは、Hugging Faceで提供中の「Train on DGX Cloud」（Train on DGX Cloud）にも対応しました。

NVIDIA の NIM は、推論用に最適化された AI マイクロサービスのセットで、NVIDIA の AI 基本モデルとオープンソースコミュニティモデルをカバーします。標準 API を通じてトークン処理効率を大幅に向上させ、NVIDIA DGX クラウドのインフラストラクチャを強化し、AI アプリケーションの応答速度と安定性を加速します。

NVIDIA DGX クラウドプラットフォームは、生成 AI 向けに特別に調整されており、信頼性が高く高速化されたコンピューティングインフラストラクチャを提供して、開発者が長期間の契約を必要とせずにプロトタイプから実稼働環境に移行できるように支援します。 Hugging Face と NVIDIA の協力により、開発者コミュニティはさらに強化されます。また、Hugging Face は最近、チームが収益性を達成し、チーム規模が 220 名に達し、小規模言語モデルの SmolLM シリーズを開始したことも発表しました。

ハイライト:

Hugging Face と NVIDIA は、AI モデルのトークン処理効率を 5 倍向上させるサービスとしての推論を開始します。

新しいサービスは、強力な LLM モデルの迅速な展開をサポートし、開発プロセスを最適化します。

NVIDIA DGX Cloud プラットフォームは、生成 AI の高速化されたインフラストラクチャを提供し、開発者の制作プロセスを簡素化します。

Hugging Face と NVIDIA の協力により、AI 開発者はサービスとしての推論と NVIDIA DGX クラウドプラットフォームを通じて、効率的で便利なモデル展開とトレーニング環境を提供でき、AI アプリケーション開発の敷居が大幅に下がり、AI テクノロジーの実装が加速されます。 AI産業の活発な発展を推進してきました。