NVIDIA une fuerzas con Hugging Face para lanzar un servicio de inferencia eficiente, aumentando cinco veces la eficiencia del procesamiento de tokens de los modelos de IA

Autor：Eve Cole Fecha de actualización：2024-12-12 20:00:02

Hugging Face y NVIDIA se unen para lanzar la revolucionaria Inferencia como servicio, que utiliza la tecnología NIM de NVIDIA para acelerar enormemente la implementación y la creación de prototipos de modelos de IA. El servicio se lanzó oficialmente en la conferencia SIGGRAPH2024, lo que marca una mejora significativa en la eficiencia de la implementación del modelo de IA. Los desarrolladores pueden acceder e implementar fácilmente potentes modelos de IA de código abierto, como los modelos Llama2 y Mistral AI, a través de Hugging Face Hub, mientras que los microservicios NIM de NVIDIA garantizan un rendimiento óptimo de estos modelos.

Recientemente, la plataforma de código abierto Hugging Face y NVIDIA anunciaron un nuevo e interesante servicio: Inference-as-a-Service, que estará impulsado por la tecnología NIM de NVIDIA. El lanzamiento del nuevo servicio permite a los desarrolladores crear prototipos más rápidamente, utilizar los modelos de IA de código abierto proporcionados en Hugging Face Hub e implementarlos de manera eficiente.

Esta noticia se anunció en la conferencia en curso SIGGRAPH2024. Esta conferencia reunió a un gran número de expertos en gráficos por computadora y tecnología interactiva. En este momento se anunció la cooperación entre NVIDIA y Hugging Face, lo que brindará nuevas oportunidades a los desarrolladores. A través de este servicio, los desarrolladores pueden implementar fácilmente modelos de lenguaje grande (LLM) potentes, como los modelos Llama2 y Mistral AI, y los microservicios NIM de NVIDIA brindan optimización para estos modelos.

Específicamente, cuando se accede como NIM, un modelo Llama3 de 7 mil millones de parámetros se puede procesar cinco veces más rápido que cuando se implementa en un sistema GPU NVIDIA H100 Tensor Core estándar, lo que sin duda es una gran mejora. Además, este nuevo servicio también es compatible con "Train on DGX Cloud" (Train on DGX Cloud), que actualmente está disponible en Hugging Face.

NIM de NVIDIA es un conjunto de microservicios de IA optimizados para la inferencia, que cubren los modelos básicos de IA de NVIDIA y los modelos comunitarios de código abierto. Mejora significativamente la eficiencia del procesamiento de tokens a través de API estándar y mejora la infraestructura de NVIDIA DGX Cloud, acelerando la velocidad de respuesta y la estabilidad de las aplicaciones de IA.

La plataforma NVIDIA DGX Cloud está diseñada específicamente para la IA generativa, proporcionando una infraestructura informática confiable y acelerada para ayudar a los desarrolladores a pasar del prototipo a la producción sin compromisos a largo plazo. La colaboración entre Hugging Face y NVIDIA fortalecerá aún más la comunidad de desarrolladores, y Hugging Face también anunció recientemente que su equipo logró rentabilidad, alcanzó un tamaño de equipo de 220 personas y lanzó la serie SmolLM de modelos de lenguaje pequeño.

Reflejos:

Hugging Face y NVIDIA lanzan inferencia como servicio para mejorar cinco veces la eficiencia del procesamiento de tokens de los modelos de IA.

El nuevo servicio respalda la implementación rápida de potentes modelos LLM y optimiza el proceso de desarrollo.

La plataforma NVIDIA DGX Cloud proporciona una infraestructura acelerada para IA generativa, simplificando el proceso de producción para los desarrolladores.

La cooperación entre Hugging Face y NVIDIA proporciona a los desarrolladores de IA un entorno de capacitación y implementación de modelos eficiente y conveniente a través de la inferencia como servicio y la plataforma NVIDIA DGX Cloud, lo que reduce significativamente el umbral para el desarrollo de aplicaciones de IA y acelera la aplicación de la tecnología de IA. Ha promovido el vigoroso desarrollo de la industria de la IA.