NVIDIA bekerja sama dengan Hugging Face untuk meluncurkan layanan inferensi yang efisien, meningkatkan efisiensi pemrosesan token model AI sebanyak lima kali lipat

Penulis：Eve Cole Waktu Pembaruan：2024-12-12 20:00:02

Hugging Face dan NVIDIA bekerja sama untuk meluncurkan Inference-as-a-Service yang revolusioner, yang menggunakan teknologi NIM NVIDIA untuk mempercepat penerapan dan pembuatan prototipe model AI. Layanan ini dirilis secara resmi pada konferensi SIGGRAPH2024, menandai peningkatan signifikan dalam efisiensi penerapan model AI. Pengembang dapat dengan mudah mengakses dan menerapkan model AI open source yang kuat, seperti model Llama2 dan Mistral AI, melalui Hugging Face Hub, sementara layanan mikro NIM NVIDIA memastikan kinerja optimal dari model-model ini.

Baru-baru ini, platform sumber terbuka Hugging Face dan NVIDIA mengumumkan layanan baru yang menarik - Inference-as-a-Service, yang akan digerakkan oleh teknologi NIM NVIDIA. Peluncuran layanan baru ini memungkinkan pengembang membuat prototipe dengan lebih cepat, menggunakan model AI open source yang disediakan di Hugging Face Hub, dan menerapkannya secara efisien.

Berita ini diumumkan pada konferensi SIGGRAPH2024 yang sedang berlangsung. Konferensi ini mempertemukan sejumlah besar pakar di bidang grafis komputer dan teknologi interaktif. Kerja sama antara NVIDIA dan Hugging Face diumumkan saat ini, membawa peluang baru bagi para pengembang. Melalui layanan ini, pengembang dapat dengan mudah menerapkan model bahasa besar (LLM) yang kuat, seperti model Llama2 dan Mistral AI, dan layanan mikro NIM NVIDIA memberikan optimalisasi untuk model ini.

Secara khusus, ketika diakses sebagai NIM, model Llama3 dengan 7 miliar parameter dapat diproses lima kali lebih cepat dibandingkan ketika diterapkan pada sistem GPU NVIDIA H100 Tensor Core standar, yang tidak diragukan lagi merupakan peningkatan yang sangat besar. Selain itu, layanan baru ini juga mendukung "Train on DGX Cloud" (Train on DGX Cloud) yang saat ini tersedia di Hugging Face.

NIM NVIDIA adalah serangkaian layanan mikro AI yang dioptimalkan untuk inferensi, mencakup model dasar AI NVIDIA dan model komunitas sumber terbuka. Ini secara signifikan meningkatkan efisiensi pemrosesan token melalui API standar dan meningkatkan infrastruktur NVIDIA DGX Cloud, mempercepat kecepatan respons dan stabilitas aplikasi AI.

Platform NVIDIA DGX Cloud secara khusus dirancang untuk AI generatif, menyediakan infrastruktur komputasi yang andal dan dipercepat untuk membantu pengembang beralih dari prototipe ke produksi tanpa komitmen jangka panjang. Kolaborasi antara Hugging Face dan NVIDIA akan semakin memperkuat komunitas pengembang, dan Hugging Face juga baru-baru ini mengumumkan bahwa timnya telah mencapai profitabilitas, mencapai ukuran tim 220 orang, dan meluncurkan serangkaian model bahasa kecil SmolLM.

Highlight:

Hugging Face dan NVIDIA meluncurkan inference-as-a-service untuk meningkatkan efisiensi pemrosesan token model AI sebanyak lima kali lipat.

Layanan baru ini mendukung penerapan model LLM yang kuat secara cepat dan mengoptimalkan proses pengembangan.

Platform NVIDIA DGX Cloud menyediakan infrastruktur yang dipercepat untuk AI generatif, menyederhanakan proses produksi bagi pengembang.

Kerja sama antara Hugging Face dan NVIDIA memberi pengembang AI penerapan model dan lingkungan pelatihan yang efisien dan nyaman melalui inferensi sebagai layanan dan platform NVIDIA DGX Cloud, sehingga secara signifikan menurunkan ambang batas untuk pengembangan aplikasi AI dan mempercepat penerapan teknologi AI telah mendorong pesatnya perkembangan industri AI.