NVIDIA ผนึกกำลังกับ Hugging Face เพื่อเปิดตัวบริการอนุมานที่มีประสิทธิภาพ เพิ่มประสิทธิภาพการประมวลผลโทเค็นของโมเดล AI ห้าเท่า

ผู้เขียน：Eve Cole เวลาอัปเดต：2024-12-12 20:00:02

Hugging Face และ NVIDIA ร่วมมือกันเพื่อเปิดตัว Inference-as-a-Service ที่ปฏิวัติวงการ ซึ่งใช้เทคโนโลยี NIM ของ NVIDIA เพื่อเพิ่มความเร็วอย่างมากในการปรับใช้และสร้างต้นแบบของโมเดล AI บริการดังกล่าวเปิดตัวอย่างเป็นทางการในการประชุม SIGGRAPH2024 ซึ่งถือเป็นการปรับปรุงประสิทธิภาพของการนำโมเดล AI ไปใช้อย่างมีนัยสำคัญ นักพัฒนาสามารถเข้าถึงและปรับใช้โมเดล AI แบบโอเพ่นซอร์สที่ทรงพลัง เช่น โมเดล Llama2 และ Mistral AI ได้อย่างง่ายดาย ผ่านทาง Hugging Face Hub ในขณะที่ไมโครเซอร์วิส NIM ของ NVIDIA รับประกันประสิทธิภาพสูงสุดของโมเดลเหล่านี้

เมื่อเร็วๆ นี้ แพลตฟอร์มโอเพ่นซอร์ส Hugging Face และ NVIDIA ได้ประกาศบริการใหม่ที่น่าตื่นเต้น - Inference-as-a-Service ซึ่งจะขับเคลื่อนโดยเทคโนโลยี NIM ของ NVIDIA การเปิดตัวบริการใหม่ช่วยให้นักพัฒนาสามารถสร้างต้นแบบได้รวดเร็วยิ่งขึ้น ใช้โมเดล AI แบบโอเพ่นซอร์สที่มีให้ใน Hugging Face Hub และปรับใช้อย่างมีประสิทธิภาพ

ข่าวนี้ได้รับการประกาศในการประชุม SIGGRAPH2024 ที่กำลังดำเนินอยู่ การประชุมครั้งนี้รวบรวมผู้เชี่ยวชาญจำนวนมากในด้านคอมพิวเตอร์กราฟิกและเทคโนโลยีเชิงโต้ตอบ ได้ประกาศความร่วมมือระหว่าง NVIDIA และ Hugging Face ในเวลานี้ ซึ่งนำโอกาสใหม่ๆ มาสู่นักพัฒนา ด้วยบริการนี้ นักพัฒนาสามารถปรับใช้โมเดลภาษาขนาดใหญ่ (LLM) ที่ทรงพลังได้อย่างง่ายดาย เช่น โมเดล Llama2 และ Mistral AI และไมโครเซอร์วิส NIM ของ NVIDIA จะช่วยเพิ่มประสิทธิภาพให้กับโมเดลเหล่านี้

โดยเฉพาะอย่างยิ่ง เมื่อเข้าถึงเป็น NIM โมเดล Llama3 ขนาด 7 พันล้านพารามิเตอร์จะสามารถประมวลผลได้เร็วกว่าถึงห้าเท่าเมื่อใช้งานบนระบบ NVIDIA H100 Tensor Core GPU มาตรฐาน ซึ่งเป็นการปรับปรุงครั้งใหญ่อย่างไม่ต้องสงสัย นอกจากนี้ บริการใหม่นี้ยังรองรับ "Train on DGX Cloud" (Train on DGX Cloud) ซึ่งปัจจุบันมีให้บริการบน Hugging Face

NIM ของ NVIDIA คือชุดไมโครเซอร์วิส AI ที่ได้รับการปรับแต่งเพื่อการอนุมาน ครอบคลุมโมเดลพื้นฐานของ AI ของ NVIDIA และโมเดลชุมชนโอเพ่นซอร์ส ปรับปรุงประสิทธิภาพการประมวลผลโทเค็นอย่างมีนัยสำคัญผ่าน API มาตรฐาน และปรับปรุงโครงสร้างพื้นฐานของ NVIDIA DGX Cloud เร่งความเร็วการตอบสนองและความเสถียรของแอปพลิเคชัน AI

แพลตฟอร์ม NVIDIA DGX Cloud ได้รับการปรับแต่งเป็นพิเศษสำหรับ AI เชิงสร้างสรรค์ โดยมอบโครงสร้างพื้นฐานการประมวลผลที่เชื่อถือได้และรวดเร็ว เพื่อช่วยให้นักพัฒนาย้ายจากต้นแบบไปสู่การใช้งานจริงโดยไม่มีข้อผูกมัดระยะยาว การทำงานร่วมกันระหว่าง Hugging Face และ NVIDIA จะช่วยเสริมสร้างความแข็งแกร่งให้กับชุมชนนักพัฒนา และ Hugging Face ยังได้ประกาศเมื่อเร็ว ๆ นี้ว่าทีมงานของบริษัทประสบความสำเร็จในการทำกำไร โดยมีจำนวนทีมถึง 220 คน และเปิดตัวซีรีส์ SmolLM ของโมเดลภาษาขนาดเล็ก

ไฮไลท์:

Hugging Face และ NVIDIA เปิดตัวบริการการอนุมานเพื่อปรับปรุงประสิทธิภาพการประมวลผลโทเค็นของโมเดล AI ห้าเท่า

บริการใหม่นี้สนับสนุนการปรับใช้โมเดล LLM อันทรงพลังอย่างรวดเร็ว และปรับกระบวนการพัฒนาให้เหมาะสม

แพลตฟอร์ม NVIDIA DGX Cloud มอบโครงสร้างพื้นฐานที่เร่งความเร็วสำหรับ generative AI ซึ่งทำให้กระบวนการผลิตสำหรับนักพัฒนาง่ายขึ้น

ความร่วมมือระหว่าง Hugging Face และ NVIDIA ช่วยให้นักพัฒนา AI มีการปรับใช้โมเดลและสภาพแวดล้อมการฝึกอบรมที่มีประสิทธิภาพและสะดวกสบายผ่านการอนุมานเป็นบริการและแพลตฟอร์ม NVIDIA DGX Cloud ซึ่งช่วยลดเกณฑ์การพัฒนาแอปพลิเคชัน AI ลงอย่างมาก และเร่งการประยุกต์ใช้เทคโนโลยี AI ได้ส่งเสริมการพัฒนาอุตสาหกรรม AI อย่างแข็งแกร่ง