Hugging Face 和 NVIDIA 携手推出革命性的推理即服务 (Inference-as-a-Service),这项服务利用 NVIDIA 的 NIM 技术,将大大加快 AI 模型的部署和原型设计速度。该服务在 SIGGRAPH2024 大会上正式发布,标志着 AI 模型部署效率的显著提升。开发者们可以通过 Hugging Face Hub 轻松访问并部署强大的开源 AI 模型,例如 Llama2 和 Mistral AI 模型,而 NVIDIA 的 NIM 微服务则确保了这些模型的最佳性能。
最近,开源平台 Hugging Face 与 NVIDIA 宣布了一项令人振奋的新服务 —— 推理即服务(Inference-as-a-Service),这项服务将由 NVIDIA 的 NIM 技术驱动。新服务的推出可以让开发者们更快速地原型设计,使用 Hugging Face Hub 上提供的开源 AI 模型,并高效地进行部署。
这一消息是在正在举行的 SIGGRAPH2024大会上公布的。这个会议聚集了大量计算机图形学和互动技术的专家,NVIDIA 与 Hugging Face 的合作正好在此时揭晓,为开发者们带来了新的机遇。通过这项服务,开发者能够轻松部署强大的大语言模型(LLMs),例如 Llama2和 Mistral AI 模型,而 NVIDIA 的 NIM 微服务则为这些模型提供了优化。
具体来说,当以 NIM 的形式访问时,像70亿参数的 Llama3模型,其处理速度比在标准的 NVIDIA H100Tensor Core GPU 系统上部署时高出五倍,这无疑是一个巨大的提升。此外,这项新服务还支持 “在 DGX Cloud 上训练”(Train on DGX Cloud),这项服务目前已在 Hugging Face 上提供。
NVIDIA 的 NIM 是一套针对推理优化的 AI 微服务,涵盖了 NVIDIA 的 AI 基础模型和开源社区模型。它通过标准 API 显著提高了 Token 处理效率,并增强了 NVIDIA DGX Cloud 的基础设施,加速了 AI 应用的响应速度和稳定性。
NVIDIA DGX Cloud 平台专门为生成式 AI 量身定制,提供可靠且加速的计算基础设施,帮助开发者从原型到生产的整个过程,而无需长期承诺。Hugging Face 与 NVIDIA 之间的合作将进一步巩固开发者社区,而 Hugging Face 最近还宣布其团队已实现盈利,团队规模达到220人,并推出了 SmolLM 系列小型语言模型。
划重点:
Hugging Face 与 NVIDIA 推出推理即服务,提升 AI 模型的 Token 处理效率五倍。
新服务支持强大 LLM 模型的快速部署,优化了开发过程。
NVIDIA DGX Cloud 平台为生成式 AI 提供加速基础设施,简化了开发者的生产流程。
Hugging Face 和 NVIDIA 的合作,通过推理即服务以及 NVIDIA DGX Cloud 平台,为 AI 开发者提供了一个高效、便捷的模型部署和训练环境,显著降低了 AI 应用开发的门槛,加速了 AI 技术的应用落地,推动了 AI 行业的蓬勃发展。