Apple은 최근 LLM(대형 언어 모델) 생성 속도에서 획기적인 발전을 이루었습니다. NVIDIA와 협력하여 오픈 소스 기술인 ReDrafter(Recurrent Drafter)를 사용하여 생성 속도를 거의 3배로 높였습니다. ReDrafter는 추론적 디코딩 방법을 사용하여 모델 훈련 효율성을 크게 향상시키고 NVIDIA의 TensorRT-LLM 추론 가속 프레임워크와 통합되어 사용 비용과 대기 시간을 더욱 줄입니다. 이번 협력은 개발 효율성을 향상시킬 뿐만 아니라 사용자에게 더 빠른 서비스 경험을 제공하여 AI 분야에서 계속 혁신하려는 Apple의 결단력과 힘을 나타냅니다. 이 기사에서는 Apple과 NVIDIA 간의 협력에 대한 세부 사항과 ReDrafter 기술의 장점을 자세히 설명합니다.
최근 Apple의 기계 학습 분야 최신 연구에 따르면 NVIDIA와의 협력을 통해 LLM(대형 언어 모델)의 생성 속도가 거의 3배 증가하는 데 성공한 것으로 나타났습니다. 이러한 발전의 핵심은 모델 훈련의 효율성을 크게 향상시킬 수 있는 추측적 디코딩 방법을 사용하는 Apple의 오픈 소스 기술인 Recurrent Drafter(ReDrafter)에 있습니다.
과거에는 대규모 언어 모델을 만드는 과정이 일반적으로 매우 시간이 많이 걸리고 리소스 집약적이었고 기업에서는 많은 수의 하드웨어 장치를 구입해야 했기 때문에 운영 비용이 증가했습니다. 2024년 초 Apple은 재귀 신경망과 동적 트리 어텐션 방법을 결합하여 태그를 빠르게 생성하고 확인하는 기술인 ReDrafter를 출시하여 기존 자동 회귀 방법에 비해 태그 생성 속도를 3.5배 높였습니다.
이번 주 Apple은 NVIDIA와의 협력을 통해 ReDrafter를 NVIDIA의 TensorRT-LLM 추론 가속 프레임워크에 통합할 것이라고 추가로 발표했습니다. 이러한 움직임을 통해 NVIDIA GPU를 사용하는 기계 학습 개발자는 프로덕션 환경에서 ReDrafter의 가속 기능을 활용할 수 있습니다. 고성능 다중 GPU 서버는 일반적으로 비용이 많이 들지만, 이러한 협력을 통해 필요한 하드웨어 양을 줄이면서 대기 시간을 줄일 수 있어 보다 경제적인 솔루션을 얻을 수 있다는 점은 언급할 가치가 있습니다.
NVIDIA를 사용한 벤치마크 테스트에서 ReDrafter를 사용한 생성 효율성은 그리디 인코딩 모드에서 초당 토큰 생성이 2.7배 증가하여 크게 향상되었습니다. 이는 개발자가 더 짧은 시간에 더 많은 결과를 얻고 사용자에게 더 빠른 서비스 경험을 제공할 수 있음을 의미합니다.
Apple은 NVIDIA와의 협력을 확인한 후 모델 훈련 효율성을 높이기 위해 Amazon의 Trainium2 칩 사용을 고려하고 있다고 밝혔습니다. Trainium2를 활용한 사전 학습 효율은 기존 하드웨어 대비 50% 향상될 것으로 예상된다.
공식 블로그: https://developer.nvidia.com/blog/nvidia-tensorrt-llm-now-supports-recurrent-drafting-for-optimizing-llm-inference/
하이라이트:
Apple은 NVIDIA와 협력하여 대규모 언어 모델 생성 속도를 거의 3배 향상시켰습니다.
오픈 소스 기술인 ReDrafter는 순환 신경망과 결합하여 모델 훈련 효율성을 크게 향상시킵니다.
이러한 협력은 비용을 절감하고 기계 학습 개발자에게 보다 효율적인 솔루션을 제공하는 데 도움이 됩니다.
전체적으로, Apple과 NVIDIA의 협력과 ReDrafter 기술의 적용은 대규모 언어 모델의 개발 및 적용에 있어 상당한 효율성 향상과 비용 절감을 가져왔습니다. 이는 인공지능 분야의 기술 발전을 촉진할 뿐만 아니라 개발자와 사용자에게 보다 편리하고 경제적인 솔루션을 제공하여 향후 AI 애플리케이션의 활발한 발전을 의미합니다.