NVIDIA schließt sich mit Hugging Face zusammen, um einen effizienten Inferenzdienst zu starten, der die Token-Verarbeitungseffizienz von KI-Modellen um das Fünffache steigert

Autor：Eve Cole Aktualisierungszeit：2024-12-12 20:00:02

Hugging Face und NVIDIA starten gemeinsam den revolutionären Inference-as-a-Service, der die NIM-Technologie von NVIDIA nutzt, um die Bereitstellung und Prototypisierung von KI-Modellen erheblich zu beschleunigen. Der Dienst wurde offiziell auf der SIGGRAPH2024-Konferenz veröffentlicht und stellt eine deutliche Verbesserung der Effizienz der KI-Modellbereitstellung dar. Entwickler können über Hugging Face Hub problemlos auf leistungsstarke Open-Source-KI-Modelle wie Llama2- und Mistral-KI-Modelle zugreifen und diese bereitstellen, während die NIM-Mikrodienste von NVIDIA eine optimale Leistung dieser Modelle gewährleisten.

Kürzlich haben die Open-Source-Plattform Hugging Face und NVIDIA einen aufregenden neuen Dienst angekündigt – Inference-as-a-Service, der auf der NIM-Technologie von NVIDIA basieren wird. Durch die Einführung des neuen Dienstes können Entwickler schneller Prototypen erstellen, die auf Hugging Face Hub bereitgestellten Open-Source-KI-Modelle nutzen und diese effizient bereitstellen.

Diese Nachricht wurde auf der laufenden SIGGRAPH2024-Konferenz bekannt gegeben. Diese Konferenz versammelte eine große Anzahl von Experten für Computergrafik und interaktive Technologie. Zu diesem Zeitpunkt wurde die Zusammenarbeit zwischen NVIDIA und Hugging Face angekündigt, die Entwicklern neue Möglichkeiten eröffnet. Über diesen Service können Entwickler problemlos leistungsstarke Large Language Models (LLMs) wie Llama2- und Mistral AI-Modelle bereitstellen, und die NIM-Microservices von NVIDIA sorgen für die Optimierung dieser Modelle.

Insbesondere kann ein Llama3-Modell mit 7 Milliarden Parametern beim Zugriff als NIM fünfmal schneller verarbeitet werden als bei der Bereitstellung auf einem standardmäßigen NVIDIA H100 Tensor Core-GPU-System, was zweifellos eine enorme Verbesserung darstellt. Darüber hinaus unterstützt dieser neue Dienst auch „Train on DGX Cloud“ (Train on DGX Cloud), das derzeit auf Hugging Face verfügbar ist.

NIM von NVIDIA ist eine Reihe von KI-Mikrodiensten, die für Inferenz optimiert sind und die KI-Basismodelle von NVIDIA und Open-Source-Community-Modelle abdecken. Es verbessert die Effizienz der Token-Verarbeitung durch Standard-APIs erheblich und erweitert die Infrastruktur der NVIDIA DGX Cloud, wodurch die Reaktionsgeschwindigkeit und Stabilität von KI-Anwendungen beschleunigt wird.

Die NVIDIA DGX Cloud-Plattform ist speziell auf generative KI zugeschnitten und bietet eine zuverlässige und beschleunigte Recheninfrastruktur, die Entwicklern den Übergang vom Prototyp zur Produktion ohne langfristige Verpflichtungen erleichtert. Die Zusammenarbeit zwischen Hugging Face und NVIDIA wird die Entwicklergemeinschaft weiter stärken. Hugging Face gab außerdem kürzlich bekannt, dass sein Team mit einer Teamgröße von 220 Personen profitabel geworden ist und die SmolLM-Serie kleiner Sprachmodelle auf den Markt gebracht hat.

Höhepunkte:

Hugging Face und NVIDIA starten Inference-as-a-Service, um die Token-Verarbeitungseffizienz von KI-Modellen um das Fünffache zu verbessern.

Der neue Service unterstützt die schnelle Bereitstellung leistungsstarker LLM-Modelle und optimiert den Entwicklungsprozess.

Die NVIDIA DGX Cloud-Plattform bietet eine beschleunigte Infrastruktur für generative KI und vereinfacht so den Produktionsprozess für Entwickler.

Die Zusammenarbeit zwischen Hugging Face und NVIDIA bietet KI-Entwicklern eine effiziente und praktische Modellbereitstellungs- und Trainingsumgebung durch Inferenz als Service und die NVIDIA DGX Cloud-Plattform, wodurch die Schwelle für die Entwicklung von KI-Anwendungen erheblich gesenkt und die Anwendung der KI-Technologie beschleunigt wird hat die kräftige Entwicklung der KI-Branche gefördert.