Generative LLM PowerInfer: 단일 GPU에서 실행되어 기계 학습 모델 추론 속도를 11배 높입니다.

저자：Eve Cole 업데이트 시간：2025-01-17 17:00:02

생성적 대형 언어 모델(LLM)은 점점 더 널리 사용되고 있으며 효율적인 작동은 강력한 컴퓨팅 성능에 달려 있습니다. PowerInfer는 일반 컴퓨터에서 LLM의 실행 속도와 효율성을 향상시키도록 설계된 혁신적인 GPU-CPU 하이브리드 추론 엔진입니다. PowerInfer는 CPU와 GPU의 장점을 교묘하게 활용하여 콜드 활성화 뉴런을 CPU에, 핫 활성화 뉴런을 GPU에 미리 로드함으로써 빠른 액세스와 계산을 달성합니다. 이 기술은 컴퓨팅 리소스가 제한된 장치에서 LLM의 성능 병목 현상을 해결하여 사용자에게 보다 편리하고 효율적인 경험을 제공합니다.

생성적 대형 언어 모델은 복잡한 자연어 처리, 창의적 글쓰기, 질문 답변, 코드 생성 등 다양한 작업에서 탁월한 성능을 발휘하는 것으로 알려져 있습니다. LLM은 소비자급 GPU가 장착된 가정용 PC를 포함하여 사용하기 쉬운 로컬 시스템에서 실행되었습니다. PowerInfer는 이러한 이해를 활용하는 GPU-CPU 하이브리드 추론 엔진으로, 계산을 위해 콜드 활성화 뉴런을 CPU에 미리 로드하고, 즉각적인 액세스를 위해 핫 활성화 뉴런을 GPU에 미리 로드하는 것으로 이해됩니다. 평가 결과, PowerInfer는 모델 충실도를 유지하면서 현재 llama.cpp 시스템보다 11.69배 빠르게 실행되는 것으로 나타났습니다. 요약하면 PowerInfer는 LLM 추론 속도를 크게 향상시켜 GPU 기능이 제한된 데스크톱 컴퓨터로서의 성능을 입증합니다.

PowerInfer의 출현은 일반 컴퓨터에 LLM을 적용하는 데 새로운 이정표를 세웠습니다. 상당한 성능 개선과 모델 충실도 유지는 사용자에게 더욱 부드럽고 편리한 AI 경험을 제공하며 향후 LLM 애플리케이션에 대한 더 많은 가능성을 예고합니다.