NVIDIA une forças com Hugging Face para lançar serviço de inferência eficiente, aumentando em cinco vezes a eficiência de processamento de tokens de modelos de IA

Autor：Eve Cole Data da Última Atualização：2024-12-12 20:00:02

A Hugging Face e a NVIDIA se unem para lançar a revolucionária Inferência como Serviço, que usa a tecnologia NIM da NVIDIA para acelerar significativamente a implantação e a prototipagem de modelos de IA. O serviço foi lançado oficialmente na conferência SIGGRAPH2024, marcando uma melhoria significativa na eficiência da implantação do modelo de IA. Os desenvolvedores podem acessar e implantar facilmente poderosos modelos de IA de código aberto, como os modelos Llama2 e Mistral AI, por meio do Hugging Face Hub, enquanto os microsserviços NIM da NVIDIA garantem o desempenho ideal desses modelos.

Recentemente, a plataforma de código aberto Hugging Face e a NVIDIA anunciaram um novo serviço interessante - Inference-as-a-Service, que será impulsionado pela tecnologia NIM da NVIDIA. O lançamento do novo serviço permite que os desenvolvedores criem protótipos mais rapidamente, usem os modelos de IA de código aberto fornecidos no Hugging Face Hub e os implantem com eficiência.

Esta notícia foi anunciada na conferência SIGGRAPH2024 em andamento. Esta conferência reuniu um grande número de especialistas em computação gráfica e tecnologia interativa. A cooperação entre NVIDIA e Hugging Face foi anunciada neste momento, trazendo novas oportunidades para os desenvolvedores. Por meio desse serviço, os desenvolvedores podem implantar facilmente modelos de linguagem grande (LLMs) poderosos, como os modelos Llama2 e Mistral AI, e os microsserviços NIM da NVIDIA fornecem otimização para esses modelos.

Especificamente, quando acessado como NIM, um modelo Llama3 de 7 bilhões de parâmetros pode ser processado cinco vezes mais rápido do que quando implantado em um sistema de GPU NVIDIA H100 Tensor Core padrão, o que é sem dúvida uma grande melhoria. Além disso, este novo serviço também suporta "Train on DGX Cloud" (Train on DGX Cloud), que está atualmente disponível no Hugging Face.

O NIM da NVIDIA é um conjunto de microsserviços de IA otimizados para inferência, cobrindo os modelos básicos de IA da NVIDIA e modelos de comunidade de código aberto. Ele melhora significativamente a eficiência do processamento de tokens por meio de APIs padrão e aprimora a infraestrutura da NVIDIA DGX Cloud, acelerando a velocidade de resposta e a estabilidade dos aplicativos de IA.

A plataforma NVIDIA DGX Cloud é especificamente adaptada para IA generativa, fornecendo infraestrutura de computação confiável e acelerada para ajudar os desenvolvedores a passar do protótipo à produção sem compromissos de longo prazo. A colaboração entre Hugging Face e NVIDIA fortalecerá ainda mais a comunidade de desenvolvedores, e Hugging Face também anunciou recentemente que sua equipe alcançou lucratividade, atingindo um tamanho de equipe de 220 pessoas, e lançou a série SmolLM de modelos de linguagem pequena.

Destaques:

Hugging Face e NVIDIA lançam inferência como serviço para melhorar em cinco vezes a eficiência do processamento de tokens de modelos de IA.

O novo serviço suporta a rápida implantação de modelos LLM poderosos e otimiza o processo de desenvolvimento.

A plataforma NVIDIA DGX Cloud fornece infraestrutura acelerada para IA generativa, simplificando o processo de produção para desenvolvedores.

A cooperação entre Hugging Face e NVIDIA fornece aos desenvolvedores de IA um ambiente de treinamento e implantação de modelo eficiente e conveniente por meio de inferência como serviço e a plataforma NVIDIA DGX Cloud, reduzindo significativamente o limite para o desenvolvimento de aplicativos de IA e acelerando a aplicação da tecnologia de IA. promoveu o desenvolvimento vigoroso da indústria de IA.