Nvidia and Universitiity Prention "Flashinfer": 큰 언어 모델 추론의 효율성을 향상시키는 새로운 커널 라이브러리 -AI 기사

저자：Eve Cole 업데이트 시간：2025-02-18 18:16:01

인공 지능 기술의 빠른 발전으로 LLM (Lange Language Model)은 현대 응용 분야에서 점점 더 중요한 역할을합니다. 챗봇, 코드 생성기 또는 기타 자연어 처리 기반 작업이든 LLM의 기능이 핵심 드라이버가되었습니다. 그러나 모델 스케일의 지속적인 확장과 복잡성이 증가함에 따라 추론 프로세스의 효율성 문제가 점차적으로 두드러졌습니다. 특히 대규모 데이터를 처리하고 복잡한 계산을 처리 할 때 지연 및 자원 소비가 해결 해야하는 병목 현상이되었습니다. 시급히.

LLM의 핵심 구성 요소로서,주의 메커니즘은 모델의 추론 효율에 직접적인 영향을 미칩니다. 그러나 FlashAttention 및 SprarSeattention과 같은 전통적인주의 메커니즘은 다양한 워크로드, 동적 입력 모드 및 GPU 자원 제약 조건에 직면 할 때 종종 성능이 저하됩니다. 높은 대기 시간, 메모리 병목 현상 및 낮은 자원 활용은 LLM 추론의 확장 성과 응답 속도를 심각하게 제한했습니다. 따라서 효율적이고 유연한 솔루션을 개발하는 것은 현재 연구의 초점이되었습니다.

이 도전을 해결하기 위해 워싱턴 대학교, Nvidia, Perplexity AI 및 Carnegie Mellon University의 연구팀은 Flashinfer를 공동으로 개발했습니다. 이것은 LLM 추론을 위해 특별히 설계된 인공 지능 라이브러리 및 커널 생성기이며, 고성능 GPU 코어를 통한 FlashAttention, Sparesattention, PageAttention 및 샘플링을 포함한 여러주의 메커니즘을 최적화하도록 설계되었습니다. Flashinfer의 디자인 철학은 유연성과 효율성을 강조하고 LLM 추론 서비스의 주요 과제에 효과적으로 대응할 수 있으며 대규모 언어 모델에서 추론을위한 실용적인 솔루션을 제공합니다.

FlashInfer의 핵심 기술 기능에는 다음 측면이 포함됩니다. 첫째, 사전 충전, 디코딩 및 추가주의와 같은 다양한 메커니즘을 다루는 포괄적 인 관심 커널 지원을 제공합니다. 요청 및 배치 서비스 시나리오의 성능. 둘째, 그룹화 된 쿼리주의 (GQA) 및 융합 회전 위치 임베딩 (로프)주의를 통해 Flashinfer는 VLLM의 페이지주의보다 31 배 빠른 긴 프롬프트 디코딩에서 상당한 성능 향상을 달성합니다. 또한 Flashinfer의 동적로드 밸런싱 스케줄러는 입력 변경에 따라 동적으로 조정하고 GPU 유휴 시간을 줄이며 자원의 효율적인 사용을 보장 할 수 있습니다. CUDA 그래프와의 호환성은 생산 환경에서의 적용 가능성을 더욱 향상시킵니다.

성능 측면에서 FlashInfer는 여러 벤치 마크에서, 특히 긴 컨텍스트 추론 및 병렬 생성 작업을 처리 할 때 대기 시간을 크게 줄일 때 잘 수행됩니다. NVIDIA H100 GPU에서 FlashInfer는 병렬 생성 작업에서 13-17% 속도 부스트를 달성합니다. 동적 스케줄러 및 최적화 된 코어는 대역폭 및 플롭 사용률을 크게 향상시켜 고르지 않거나 균일 한 시퀀스 길이에 관계없이 GPU 리소스의 효율적인 활용을 가능하게합니다. 이러한 장점으로 인해 FlashInfer는 LLM 서비스 프레임 워크의 개발을 촉진하는 중요한 도구입니다.

오픈 소스 프로젝트로서 Flashinfer는 LLM 추론 문제에 대한 효율적인 솔루션을 제공 할뿐만 아니라 연구 커뮤니티의 추가 협업과 혁신을 장려합니다. 유연한 설계 및 통합 기능을 통해 변화하는 AI 인프라 요구에 적응할 수 있으며 새로운 과제를 해결하는 데있어 리더십보다 앞서 있습니다. 오픈 소스 커뮤니티의 공동 노력을 통해 Flashinfer는 향후 AI 기술 개발에서 더 중요한 역할을 할 것으로 예상됩니다.

프로젝트 입구 : https://github.com/flashinfer-ai/flashinfer

핵심 사항 :

Flashinfer는 대형 언어 모델 추론을 위해 설계된 새로 출시 된 인공 지능 라이브러리이며 효율성을 크게 향상시킬 수 있습니다.

이 라이브러리는 여러주의 메커니즘을 지원하고 GPU 리소스 활용도를 최적화하며 추론 대기 시간을 줄입니다.

오픈 소스 프로젝트로서 Flashinfer는 연구원들이 참여하여 AI 인프라의 혁신과 개발을 촉진하기 위해 참여하도록 환영합니다.