NVIDIA s'associe à Hugging Face pour lancer un service d'inférence efficace, multipliant par cinq l'efficacité du traitement des jetons des modèles d'IA.

Auteur：Eve Cole Date de mise à jour：2024-12-12 20:00:02

Hugging Face et NVIDIA s'associent pour lancer une Inference-as-a-Service révolutionnaire, qui utilise la technologie NIM de NVIDIA pour accélérer considérablement le déploiement et le prototypage de modèles d'IA. Le service a été officiellement lancé lors de la conférence SIGGRAPH2024, marquant une amélioration significative de l'efficacité du déploiement des modèles d'IA. Les développeurs peuvent facilement accéder et déployer de puissants modèles d'IA open source, tels que les modèles d'IA Llama2 et Mistral, via Hugging Face Hub, tandis que les microservices NIM de NVIDIA garantissent des performances optimales de ces modèles.

Récemment, la plate-forme open source Hugging Face et NVIDIA ont annoncé un nouveau service passionnant : l'inférence en tant que service, qui sera piloté par la technologie NIM de NVIDIA. Le lancement du nouveau service permet aux développeurs de créer des prototypes plus rapidement, d'utiliser les modèles d'IA open source fournis sur Hugging Face Hub et de les déployer efficacement.

Cette nouvelle a été annoncée lors de la conférence en cours SIGGRAPH2024. Cette conférence a rassemblé un grand nombre d'experts en infographie et en technologie interactive. La coopération entre NVIDIA et Hugging Face a été annoncée à cette occasion, apportant de nouvelles opportunités aux développeurs. Grâce à ce service, les développeurs peuvent facilement déployer de puissants modèles de langage étendu (LLM), tels que les modèles Llama2 et Mistral AI, et les microservices NIM de NVIDIA assurent l'optimisation de ces modèles.

Plus précisément, lorsqu'il est accessible en tant que NIM, un modèle Llama3 de 7 milliards de paramètres peut être traité cinq fois plus rapidement que lorsqu'il est déployé sur un système GPU NVIDIA H100 Tensor Core standard, ce qui constitue sans aucun doute une énorme amélioration. De plus, ce nouveau service prend également en charge « Train on DGX Cloud » (Train on DGX Cloud), actuellement disponible sur Hugging Face.

Le NIM de NVIDIA est un ensemble de microservices d'IA optimisés pour l'inférence, couvrant les modèles de base d'IA de NVIDIA et les modèles de communauté open source. Il améliore considérablement l'efficacité du traitement des jetons grâce aux API standard et améliore l'infrastructure de NVIDIA DGX Cloud, accélérant la vitesse de réponse et la stabilité des applications d'IA.

La plateforme NVIDIA DGX Cloud est spécialement conçue pour l'IA générative, fournissant une infrastructure informatique fiable et accélérée pour aider les développeurs à passer du prototype à la production sans engagement à long terme. La collaboration entre Hugging Face et NVIDIA renforcera encore la communauté des développeurs, et Hugging Face a également récemment annoncé que son équipe avait atteint la rentabilité, atteignant une taille d'équipe de 220 personnes, et a lancé la série SmolLM de petits modèles de langage.

Points forts:

Hugging Face et NVIDIA lancent l'inférence en tant que service pour améliorer par cinq l'efficacité du traitement des jetons des modèles d'IA.

Le nouveau service prend en charge le déploiement rapide de modèles LLM puissants et optimise le processus de développement.

La plateforme NVIDIA DGX Cloud fournit une infrastructure accélérée pour l'IA générative, simplifiant ainsi le processus de production pour les développeurs.

La coopération entre Hugging Face et NVIDIA offre aux développeurs d'IA un environnement de déploiement et de formation de modèles efficace et pratique grâce à l'inférence en tant que service et à la plate-forme NVIDIA DGX Cloud, abaissant considérablement le seuil de développement d'applications d'IA et accélérant l'application de la technologie d'IA. a favorisé le développement vigoureux de l'industrie de l'IA.