| 문서 | 블로그 | 종이 | 불화 | 트위터/X | 개발자 슬랙 |
vLLM x Snowflake Meetup(11월 13일 수요일, 오후 5시 30분~8시(태평양 표준시)) San Mateo Snowflake HQ
올해 마지막 대면 vLLM 모임을 발표하게 되어 기쁘게 생각합니다! Snowflake AI Research의 vLLM 개발자 및 엔지니어와 함께 최신 LLM 추론 최적화 및 2025 vLLM 위시리스트에 대해 이야기를 나누세요! 여기에서 등록하고 이벤트에 참여하세요!
최신 뉴스 ?
[2024/10] 기여 조정 및 기능 논의에 초점을 맞춘 개발자 Slack(slack.vllm.ai)을 만들었습니다. 거기에 꼭 참여해주세요!
[2024/10] Ray Summit 2024에서 vLLM 스페셜 트랙을 개최했습니다! 여기에서 vLLM 팀의 오프닝 토크 슬라이드를 찾아보세요. 다른 vLLM 기여자 및 사용자의 강연에서 자세히 알아보세요!
[2024/09] NVIDIA와 함께 여섯 번째 vLLM 밋업을 진행했습니다! 여기에서 모임 슬라이드를 찾아보세요.
[2024/07] AWS와 다섯 번째 vLLM 밋업을 진행했습니다! 여기에서 모임 슬라이드를 찾아보세요.
[2024/07] vLLM은 Meta와의 파트너십을 통해 FP8 양자화 및 파이프라인 병렬 처리 기능을 갖춘 Llama 3.1을 공식 지원합니다! 여기에서 블로그 게시물을 확인하세요.
[2024/06] Cloudflare와 BentoML이 함께 네 번째 vLLM 밋업을 주최했습니다! 여기에서 모임 슬라이드를 찾아보세요.
[2024/04] Roblox와 함께 세 번째 vLLM 밋업을 진행했습니다! 여기에서 모임 슬라이드를 찾아보세요.
[2024/01] IBM과 함께 두 번째 vLLM 밋업을 진행했습니다! 여기에서 모임 슬라이드를 찾아보세요.
[2023/10] a16z와 함께 첫 vLLM 밋업을 진행했습니다! 여기에서 모임 슬라이드를 찾아보세요.
[2023/08] vLLM의 오픈 소스 개발 및 연구를 지원하기 위해 넉넉한 보조금을 제공한 Andreessen Horowitz(a16z)에게 진심으로 감사의 말씀을 전하고 싶습니다.
[2023/06] vLLM을 정식 출시했습니다! FastChat-vLLM 통합으로 4월 중순부터 LMSYS Vicuna 및 Chatbot Arena가 강화되었습니다. 블로그 게시물을 확인해 보세요.
vLLM은 LLM 추론 및 제공을 위한 빠르고 사용하기 쉬운 라이브러리입니다.
vLLM은 다음과 같이 빠릅니다.
최첨단 서비스 처리량
PagedAttention을 사용하여 어텐션 키 및 값 메모리를 효율적으로 관리
들어오는 요청을 지속적으로 일괄 처리
CUDA/HIP 그래프를 통한 빠른 모델 실행
양자화: GPTQ, AWQ, INT4, INT8 및 FP8.
FlashAttention 및 FlashInfer와의 통합을 포함하여 최적화된 CUDA 커널.
추측적 디코딩
청크 미리 채우기
성능 벤치마크 : 블로그 게시물 끝에 성능 벤치마크가 포함되어 있습니다. vLLM의 성능을 다른 LLM 서비스 엔진(TensorRT-LLM, SGLang 및 LMDeploy)과 비교합니다. 구현은 nightly-benchmarks 폴더에 있으며 원클릭 실행 가능 스크립트를 사용하여 이 벤치마크를 재현할 수 있습니다.
vLLM은 다음과 같이 유연하고 사용하기 쉽습니다.
인기 있는 Hugging Face 모델과의 원활한 통합
병렬 샘플링 , 빔 검색 등을 포함한 다양한 디코딩 알고리즘을 통해 높은 처리량 제공
분산 추론을 위한 텐서 병렬성 및 파이프라인 병렬성 지원
스트리밍 출력
OpenAI 호환 API 서버
NVIDIA GPU, AMD CPU 및 GPU, Intel CPU 및 GPU, PowerPC CPU, TPU 및 AWS Neuron을 지원합니다.
접두사 캐싱 지원
멀티로라 지원
vLLM은 다음을 포함하여 HuggingFace에서 가장 인기 있는 오픈 소스 모델을 원활하게 지원합니다.
Transformer와 유사한 LLM(예: Llama)
전문가 혼합 LLM(예: Mixtral)
임베딩 모델(예: E5-Mistral)
다중 모드 LLM(예: LLaVA)
여기에서 지원되는 모델의 전체 목록을 찾아보세요.
pip
사용하거나 소스에서 vLLM을 설치합니다.
pip 설치 vllm
자세히 알아보려면 설명서를 방문하세요.
설치
빠른 시작
지원되는 모델
우리는 모든 기여와 협력을 환영하고 소중히 여깁니다. 참여 방법은 CONTRIBUTING.md를 확인하세요.
vLLM은 커뮤니티 프로젝트입니다. 개발 및 테스트를 위한 당사의 컴퓨팅 리소스는 다음 조직에서 지원됩니다. 귀하의 지원에 감사드립니다!
a16z
AMD
모든 규모
AWS
크루소 클라우드
데이터브릭스
딥인프라
드롭박스
구글 클라우드
람다 연구소
엔비디아
뒤로 젖히다
로블록스
런팟
세쿼이아 캐피탈
스카이워크 AI
트레이닝
UC 버클리
UC 샌디에고
젠펀드
OpenCollective를 통한 공식 모금 장소도 있습니다. 우리는 이 자금을 vLLM의 개발, 유지 관리 및 채택을 지원하는 데 사용할 계획입니다.
연구에 vLLM을 사용하는 경우 다음 논문을 인용해 주세요.
@inproceedings{kwon2023efficient, title={PagedAttention을 사용한 대규모 언어 모델 제공을 위한 효율적인 메모리 관리}, 작성자={Woosuk Kwon 및 Zhuohan Li 및 Siyuan Zhuang 및 Ying Sheng 및 Lianmin Zheng 및 Cody Hao Yu 및 Joseph E. Gonzalez 및 Hao Zhang 및 Ion Stoica}, booktitle={ACM SIGOPS 29차 회의록 운영 체제 원칙에 관한 심포지엄}, 연도={2023}}
기술적인 질문이나 기능 요청은 Github 이슈나 토론을 이용해 주세요.
다른 유저들과의 토론은 디스코드를 이용해주세요.
기여 및 개발을 조정하려면 Slack을 사용하세요.
보안 공개를 위해서는 Github의 보안 권고 기능을 사용하세요.
협력 및 파트너십에 대해서는 vllm-questions ATlists.berkeley.edu로 문의해 주십시오.