| Dokumentation | Blog | Papier | Zwietracht | Twitter/X | Entwickler-Slack |
vLLM x Snowflake Meetup (Mittwoch, 13. November, 17:30–20:00 Uhr PT) im Hauptquartier von Snowflake, San Mateo
Wir freuen uns, das letzte persönliche vLLM-Treffen des Jahres ankündigen zu können! Treten Sie den vLLM-Entwicklern und -Ingenieuren von Snowflake AI Research bei, um über die neuesten LLM-Inferenzoptimierungen und Ihre vLLM-Wunschliste für 2025 zu chatten! Registrieren Sie sich hier und seien Sie Teil der Veranstaltung!
Neueste Nachrichten ?
[2024/10] Wir haben gerade einen Entwickler-Slack (slack.vllm.ai) erstellt, der sich auf die Koordinierung von Beiträgen und die Diskussion von Funktionen konzentriert. Seien Sie gerne dabei!
[2024/10] Beim Ray Summit 2024 gab es einen besonderen Track für vLLM! Die Eröffnungsvortragsfolien des vLLM-Teams finden Sie hier. Erfahren Sie mehr aus den Vorträgen anderer vLLM-Mitwirkender und -Benutzer!
[2024/09] Wir haben das sechste vLLM-Treffen mit NVIDIA veranstaltet! Die Meetup-Folien finden Sie hier.
[2024/07] Wir haben das fünfte vLLM-Treffen mit AWS veranstaltet! Die Meetup-Folien finden Sie hier.
[2024/07] In Zusammenarbeit mit Meta unterstützt vLLM offiziell Llama 3.1 mit FP8-Quantisierung und Pipeline-Parallelität! Bitte schauen Sie sich hier unseren Blogbeitrag an.
[2024/06] Wir haben das vierte vLLM-Treffen mit Cloudflare und BentoML veranstaltet! Die Meetup-Folien finden Sie hier.
[2024/04] Wir haben das dritte vLLM-Treffen mit Roblox veranstaltet! Die Meetup-Folien finden Sie hier.
[2024/01] Wir haben das zweite vLLM-Treffen mit IBM veranstaltet! Die Meetup-Folien finden Sie hier.
[2023/10] Wir haben das erste vLLM-Treffen mit a16z veranstaltet! Die Meetup-Folien finden Sie hier.
[2023/08] Wir möchten Andreessen Horowitz (a16z) unseren aufrichtigen Dank für die Bereitstellung eines großzügigen Zuschusses zur Unterstützung der Open-Source-Entwicklung und -Forschung von vLLM aussprechen.
[2023/06] Wir haben vLLM offiziell veröffentlicht! Die FastChat-vLLM-Integration unterstützt LMSYS Vicuna und Chatbot Arena seit Mitte April. Schauen Sie sich unseren Blogbeitrag an.
vLLM ist eine schnelle und benutzerfreundliche Bibliothek für LLM-Inferenz und -Bereitstellung.
vLLM ist schnell mit:
Modernster Servierdurchsatz
Effizientes Management des Aufmerksamkeitsschlüssels und des Wertegedächtnisses mit PagedAttention
Kontinuierliche Stapelverarbeitung eingehender Anfragen
Schnelle Modellausführung mit CUDA/HIP-Diagramm
Quantisierungen: GPTQ, AWQ, INT4, INT8 und FP8.
Optimierte CUDA-Kernel, einschließlich Integration mit FlashAttention und FlashInfer.
Spekulative Dekodierung
Stückige Vorfüllung
Leistungsbenchmark : Am Ende unseres Blogbeitrags fügen wir einen Leistungsbenchmark hinzu. Es vergleicht die Leistung von vLLM mit anderen LLM-Serving-Engines (TensorRT-LLM, SGLang und LMDeploy). Die Implementierung befindet sich im Ordner „Nightly-Benchmarks“ und Sie können diesen Benchmark mit unserem mit einem Klick ausführbaren Skript reproduzieren.
vLLM ist flexibel und einfach zu verwenden mit:
Nahtlose Integration mit beliebten Hugging Face-Modellen
Hochdurchsatzbereitstellung mit verschiedenen Dekodierungsalgorithmen, einschließlich paralleler Abtastung , Strahlsuche und mehr
Unterstützung für Tensorparallelität und Pipelineparallelität für verteilte Inferenz
Streaming-Ausgaben
OpenAI-kompatibler API-Server
Unterstützt NVIDIA-GPUs, AMD-CPUs und -GPUs, Intel-CPUs und -GPUs, PowerPC-CPUs, TPU und AWS Neuron.
Unterstützung für Präfix-Caching
Multi-Lora-Unterstützung
vLLM unterstützt nahtlos die beliebtesten Open-Source-Modelle auf HuggingFace, darunter:
Transformer-ähnliche LLMs (z. B. Llama)
Mixture-of-Expert-LLMs (z. B. Mixtral)
Einbettungsmodelle (z. B. E5-Mistral)
Multimodale LLMs (z. B. LLaVA)
Die vollständige Liste der unterstützten Modelle finden Sie hier.
Installieren Sie vLLM mit pip
oder von der Quelle:
pip install vllm
Besuchen Sie unsere Dokumentation, um mehr zu erfahren.
Installation
Schnellstart
Unterstützte Modelle
Wir freuen uns über jeden Beitrag und jede Zusammenarbeit. Bitte schauen Sie sich CONTRIBUTING.md an, um zu erfahren, wie Sie sich beteiligen können.
vLLM ist ein Community-Projekt. Unsere Rechenressourcen für Entwicklung und Tests werden von den folgenden Organisationen unterstützt. Vielen Dank für Ihre Unterstützung!
a16z
AMD
Anyscale
AWS
Crusoe Cloud
Datenbausteine
DeepInfra
Dropbox
Google Cloud
Lambda-Labor
NVIDIA
Replizieren
Roblox
RunPod
Sequoia-Hauptstadt
Skywork-KI
Trainig
UC Berkeley
UC San Diego
ZhenFund
Über OpenCollective verfügen wir auch über einen offiziellen Spendensammelplatz. Wir planen, den Fonds zur Unterstützung der Entwicklung, Wartung und Einführung von vLLM zu verwenden.
Wenn Sie vLLM für Ihre Forschung nutzen, zitieren Sie bitte unseren Artikel:
@inproceedings{kwon2023efficient, title={Effiziente Speicherverwaltung für die Bereitstellung großer Sprachmodelle mit PagedAttention}, Autor={Woosuk Kwon und Zhuohan Li und Siyuan Zhuang und Ying Sheng und Lianmin Zheng und Cody Hao Yu und Joseph E. Gonzalez und Hao Zhang und Ion Stoica}, Buchtitel={Proceedings of the ACM SIGOPS 29th Symposium on Betriebssystemprinzipien}, Jahr={2023}}
Für technische Fragen und Funktionswünsche nutzen Sie bitte Github-Probleme oder -Diskussionen.
Für Diskussionen mit anderen Benutzern nutzen Sie bitte Discord.
Für die Koordination von Beiträgen und Entwicklung nutzen Sie bitte Slack.
Für Sicherheitsoffenlegungen nutzen Sie bitte die Sicherheitshinweisfunktion von Github.
Für Kooperationen und Partnerschaften kontaktieren Sie uns bitte unter vllm-questions AT states.berkeley.edu.