NVIDIA는 Hugging Face와 협력하여 효율적인 추론 서비스를 출시하고 AI 모델의 토큰 처리 효율성을 5배 높입니다.

저자：Eve Cole 업데이트 시간：2024-12-12 20:00:02

Hugging Face와 NVIDIA는 NVIDIA의 NIM 기술을 사용하여 AI 모델의 배포 및 프로토타이핑 속도를 크게 높이는 혁신적인 서비스형 추론(Inference-as-a-Service)을 출시하기 위해 손을 잡았습니다. 이 서비스는 SIGGRAPH2024 컨퍼런스에서 공식 출시되어 AI 모델 배포 효율성이 크게 향상되었습니다. 개발자는 Hugging Face Hub를 통해 Llama2 및 Mistral AI 모델과 같은 강력한 오픈 소스 AI 모델에 쉽게 액세스하고 배포할 수 있으며, NVIDIA의 NIM 마이크로서비스는 이러한 모델의 최적 성능을 보장합니다.

최근 오픈 소스 플랫폼 Hugging Face와 NVIDIA는 NVIDIA의 NIM 기술을 기반으로 하는 서비스형 추론(Inference-as-a-Service)이라는 흥미로운 새 서비스를 발표했습니다. 새로운 서비스 출시를 통해 개발자는 보다 빠르게 프로토타입을 제작하고 Hugging Face Hub에서 제공되는 오픈 소스 AI 모델을 사용하며 효율적으로 배포할 수 있습니다.

이 소식은 현재 진행 중인 SIGGRAPH2024 컨퍼런스에서 발표되었습니다. 이번 컨퍼런스에는 컴퓨터 그래픽과 인터랙티브 기술 분야의 전문가들이 대거 모였습니다. 이때 NVIDIA와 Hugging Face의 협력이 발표되어 개발자들에게 새로운 기회를 선사했습니다. 이 서비스를 통해 개발자는 Llama2 및 Mistral AI 모델과 같은 강력한 대형 언어 모델(LLM)을 쉽게 배포할 수 있으며 NVIDIA의 NIM 마이크로서비스는 이러한 모델에 대한 최적화를 제공합니다.

특히, NIM으로 액세스하면 70억 매개변수의 Llama3 모델이 표준 NVIDIA H100 Tensor Core GPU 시스템에 배포되었을 때보다 5배 빠르게 처리될 수 있는데, 이는 의심할 여지 없이 엄청난 개선입니다. 또한, 이 새로운 서비스는 현재 Hugging Face에서 사용할 수 있는 'Train on DGX Cloud'(Train on DGX Cloud)도 지원합니다.

NVIDIA의 NIM은 추론에 최적화된 AI 마이크로서비스 세트로, NVIDIA의 AI 기본 모델과 오픈 소스 커뮤니티 모델을 포괄합니다. 표준 API를 통해 토큰 처리 효율성을 크게 향상시키고 NVIDIA DGX Cloud의 인프라를 강화하여 AI 애플리케이션의 응답 속도와 안정성을 가속화합니다.

NVIDIA DGX 클라우드 플랫폼은 생성적 AI를 위해 특별히 맞춤 제작되었으며, 안정적이고 가속화된 컴퓨팅 인프라를 제공하여 개발자가 장기적인 노력 없이 프로토타입에서 생산으로 이동할 수 있도록 지원합니다. Hugging Face와 NVIDIA의 협력은 개발자 커뮤니티를 더욱 강화할 것입니다. Hugging Face는 최근 팀 규모가 220명에 도달하여 수익성을 달성했으며 SmolLM 시리즈의 소규모 언어 모델을 출시했다고 발표했습니다.

하이라이트:

Hugging Face와 NVIDIA는 AI 모델의 토큰 처리 효율성을 5배 향상하기 위해 서비스형 추론을 출시했습니다.

새로운 서비스는 강력한 LLM 모델의 신속한 배포를 지원하고 개발 프로세스를 최적화합니다.

NVIDIA DGX 클라우드 플랫폼은 생성 AI를 위한 가속화된 인프라를 제공하여 개발자의 생산 프로세스를 단순화합니다.

Hugging Face와 NVIDIA의 협력은 AI 개발자에게 서비스형 추론과 NVIDIA DGX Cloud 플랫폼을 통해 효율적이고 편리한 모델 배포 및 훈련 환경을 제공하여 AI 애플리케이션 개발의 문턱을 크게 낮추고 AI 기술 적용을 가속화합니다. AI 산업의 활발한 발전을 촉진해왔습니다.