Hugging Face 和NVIDIA 携手推出革命性的推理即服务(Inference-as-a-Service),这项服务利用NVIDIA 的NIM 技术,将大大加快AI 模型的部署和原型设计速度。该服务在SIGGRAPH2024 大会上正式发布,标志着AI 模型部署效率的显着提升。开发者们可以通过Hugging Face Hub 轻松访问并部署强大的开源AI 模型,例如Llama2 和Mistral AI 模型,而NVIDIA 的NIM 微服务则确保了这些模型的最佳性能。
最近,开源平台Hugging Face 与NVIDIA 宣布了一项令人振奋的新服务—— 推理即服务(Inference-as-a-Service),这项服务将由NVIDIA 的NIM 技术驱动。新服务的推出可以让开发者们更快速地原型设计,使用Hugging Face Hub 上提供的开源AI 模型,并高效地进行部署。
这一消息是在正在举行的SIGGRAPH2024大会上公布的。这个会议聚集了大量计算机图形学和互动技术的专家,NVIDIA 与Hugging Face 的合作正好在此时揭晓,为开发者们带来了新的机遇。通过这项服务,开发者能够轻松部署强大的大语言模型(LLMs),例如Llama2和Mistral AI 模型,而NVIDIA 的NIM 微服务则为这些模型提供了优化。
具体来说,当以NIM 的形式访问时,像70亿参数的Llama3模型,其处理速度比在标准的NVIDIA H100Tensor Core GPU 系统上部署时高出五倍,这无疑是一个巨大的提升。此外,这项新服务还支持“在DGX Cloud 上训练”(Train on DGX Cloud),这项服务目前已在Hugging Face 上提供。
NVIDIA 的NIM 是一套针对推理优化的AI 微服务,涵盖了NVIDIA 的AI 基础模型和开源社区模型。它通过标准API 显着提高了Token 处理效率,并增强了NVIDIA DGX Cloud 的基础设施,加速了AI 应用的响应速度和稳定性。
NVIDIA DGX Cloud 平台专门为生成式AI 量身定制,提供可靠且加速的计算基础设施,帮助开发者从原型到生产的整个过程,而无需长期承诺。 Hugging Face 与NVIDIA 之间的合作将进一步巩固开发者社区,而Hugging Face 最近还宣布其团队已实现盈利,团队规模达到220人,并推出了SmolLM 系列小型语言模型。
划重点:
Hugging Face 与NVIDIA 推出推理即服务,提升AI 模型的Token 处理效率五倍。
新服务支持强大LLM 模型的快速部署,优化了开发过程。
NVIDIA DGX Cloud 平台为生成式AI 提供加速基础设施,简化了开发者的生产流程。
Hugging Face 和NVIDIA 的合作,通过推理即服务以及NVIDIA DGX Cloud 平台,为AI 开发者提供了一个高效、便捷的模型部署和训练环境,显着降低了AI 应用开发的门槛,加速了AI 技术的应用落地,推动了AI 行业的蓬勃发展。