| Dokumentasi | Blog | Kertas | Perselisihan | Twitter/X | Kelambanan Pengembang |
vLLM x Snowflake Meetup (Rabu, 13 November, 17.30-20.00 PT) di Snowflake HQ, San Mateo
Kami sangat gembira mengumumkan pertemuan vLLM tatap muka terakhir tahun ini! Bergabunglah dengan pengembang dan insinyur vLLM dari Snowflake AI Research untuk mengobrol tentang pengoptimalan inferensi LLM terbaru dan daftar keinginan vLLM 2025 Anda! Daftar di sini dan jadilah bagian dari acara ini!
Berita Terkini ?
[2024/10] Kami baru saja membuat developer slack (slack.vllm.ai) yang berfokus pada mengoordinasikan kontribusi dan mendiskusikan fitur. Silakan bergabung dengan kami di sana!
[2024/10] Ray Summit 2024 adakan track khusus untuk vLLM! Silakan temukan slide pembicaraan pembuka dari tim vLLM di sini. Pelajari lebih lanjut dari pembicaraan kontributor dan pengguna vLLM lainnya!
[2024/09] Kami mengadakan pertemuan vLLM keenam dengan NVIDIA! Silakan temukan slide pertemuan di sini.
[2024/07] Kami mengadakan pertemuan vLLM kelima dengan AWS! Silakan temukan slide pertemuan di sini.
[2024/07] Bekerja sama dengan Meta, vLLM secara resmi mendukung Llama 3.1 dengan kuantisasi FP8 dan paralelisme pipeline! Silakan lihat postingan blog kami di sini.
[2024/06] Kami mengadakan pertemuan vLLM keempat dengan Cloudflare dan BentoML! Silakan temukan slide pertemuan di sini.
[2024/04] Kami mengadakan pertemuan vLLM ketiga dengan Roblox! Silakan temukan slide pertemuan di sini.
[2024/01] Kami mengadakan pertemuan vLLM kedua dengan IBM! Silakan temukan slide pertemuan di sini.
[2023/10] Kami mengadakan pertemuan vLLM pertama dengan a16z! Silakan temukan slide pertemuan di sini.
[2023/08] Kami ingin mengucapkan terima kasih yang tulus kepada Andreessen Horowitz (a16z) yang telah memberikan hibah besar untuk mendukung pengembangan sumber terbuka dan penelitian vLLM.
[2023/06] Kami resmi merilis vLLM! Integrasi FastChat-vLLM telah mendukung LMSYS Vicuna dan Chatbot Arena sejak pertengahan April. Lihat postingan blog kami.
vLLM adalah perpustakaan yang cepat dan mudah digunakan untuk inferensi dan penyajian LLM.
vLLM cepat dengan:
Throughput penyajian yang canggih
Manajemen kunci perhatian dan memori nilai yang efisien dengan PagedAttention
Pengelompokan permintaan masuk yang berkelanjutan
Eksekusi model cepat dengan grafik CUDA/HIP
Kuantisasi: GPTQ, AWQ, INT4, INT8, dan FP8.
Kernel CUDA yang dioptimalkan, termasuk integrasi dengan FlashAttention dan FlashInfer.
Penguraian kode spekulatif
Isi awal yang sudah dipotong
Tolok ukur kinerja : Kami menyertakan tolok ukur kinerja di akhir postingan blog kami. Ini membandingkan performa vLLM dengan mesin penyajian LLM lainnya (TensorRT-LLM, SGLang, dan LMDeploy). Implementasinya berada di bawah folder nightly-benchmarks dan Anda dapat mereproduksi benchmark ini menggunakan skrip runnable sekali klik kami.
vLLM fleksibel dan mudah digunakan dengan:
Integrasi yang mulus dengan model Hugging Face yang populer
Penyajian throughput tinggi dengan berbagai algoritma decoding, termasuk pengambilan sampel paralel , pencarian berkas , dan banyak lagi
Dukungan paralelisme tensor dan paralelisme pipeline untuk inferensi terdistribusi
Keluaran streaming
Server API yang kompatibel dengan OpenAI
Mendukung GPU NVIDIA, CPU dan GPU AMD, CPU dan GPU Intel, CPU PowerPC, TPU, dan AWS Neuron.
Dukungan cache awalan
Dukungan multi-lora
vLLM dengan lancar mendukung sebagian besar model sumber terbuka populer di HuggingFace, termasuk:
LLM seperti transformator (misalnya, Llama)
LLM Campuran Pakar (misalnya, Mixtral)
Menanamkan Model (misalnya E5-Mistral)
LLM multi-modal (misalnya, LLaVA)
Temukan daftar lengkap model yang didukung di sini.
Instal vLLM dengan pip
atau dari sumber:
pip instal vllm
Kunjungi dokumentasi kami untuk mempelajari lebih lanjut.
Instalasi
Mulai cepat
Model yang Didukung
Kami menyambut dan menghargai setiap kontribusi dan kolaborasi. Silakan kunjungi CONTRIBUTING.md untuk mengetahui cara terlibat.
vLLM adalah proyek komunitas. Sumber daya komputasi kami untuk pengembangan dan pengujian didukung oleh organisasi berikut. Terima kasih atas dukungan Anda!
a16z
AMD
Skala apa pun
AWS
Awan Crusoe
Databricks
Infra Dalam
Dropbox
Google Awan
Lab Lambda
NVIDIA
Mengulangi
Roblox
JalankanPod
Ibukota Sequoia
AI Pekerjaan Langit
Terlatih
UC Berkeley
UC San Diego
Dana Zhen
Kami juga memiliki tempat penggalangan dana resmi melalui OpenCollective. Kami berencana menggunakan dana tersebut untuk mendukung pengembangan, pemeliharaan, dan adopsi vLLM.
Jika Anda menggunakan vLLM untuk penelitian Anda, harap mengutip makalah kami:
@inproceedings{kwon2023efisien, title={Manajemen Memori yang Efisien untuk Penyajian Model Bahasa Besar dengan PagedAttention}, author={Woosuk Kwon dan Zhuohan Li dan Siyuan Zhuang dan Ying Sheng dan Lianmin Zheng dan Cody Hao Yu dan Joseph E. Gonzalez dan Hao Zhang dan Ion Stoica}, booktitle={Prosiding Simposium ke-29 ACM SIGOPS tentang Prinsip Sistem Operasi}, tahun={2023}}
Untuk pertanyaan teknis dan permintaan fitur, silakan gunakan masalah atau diskusi Github.
Untuk berdiskusi dengan sesama pengguna, silakan gunakan Discord.
Untuk mengoordinasikan kontribusi dan pengembangan, silakan gunakan Slack.
Untuk pengungkapan keamanan, silakan gunakan fitur penasihat keamanan Github.
Untuk kolaborasi dan kemitraan, silakan hubungi kami di vllm-questions AT list.berkeley.edu.