- เอกสารประกอบ | บล็อก | กระดาษ | ไม่ลงรอยกัน | ทวิตเตอร์/X | นักพัฒนา Slack |
vLLM x Snowflake Meetup (วันพุธที่ 13 พฤศจิกายน เวลา 17.30-20.00 น. PT) ที่ Snowflake HQ, ซานมาเทโอ
เรารู้สึกตื่นเต้นที่จะประกาศการพบปะ vLLM ด้วยตนเองครั้งสุดท้ายของปี! เข้าร่วมนักพัฒนาและวิศวกร vLLM จาก Snowflake AI Research เพื่อพูดคุยเกี่ยวกับการปรับปรุงการอนุมาน LLM ล่าสุดและรายการความปรารถนา vLLM ปี 2025 ของคุณ! ลงทะเบียนที่นี่และเป็นส่วนหนึ่งของกิจกรรม!
ข่าวล่าสุด ?
[10/2024] เราเพิ่งสร้าง slack ของนักพัฒนา (slack.vllm.ai) โดยมุ่งเน้นที่การประสานงานการมีส่วนร่วมและการหารือเกี่ยวกับคุณสมบัติต่างๆ โปรดเข้าร่วมกับเราที่นั่น!
[10/2024] Ray Summit 2024 จัดเพลงพิเศษสำหรับ vLLM! โปรดดูสไลด์พูดคุยเปิดงานจากทีม vLLM ที่นี่ เรียนรู้เพิ่มเติมจากการเสวนาจากผู้ร่วมให้ข้อมูลและผู้ใช้ vLLM คนอื่นๆ!
[2024/09] เราได้จัดงานพบปะ vLLM ครั้งที่ 6 กับ NVIDIA! โปรดดูสไลด์การพบปะที่นี่
[2024/07] เราเป็นเจ้าภาพจัดมีตติ้ง vLLM ครั้งที่ 5 กับ AWS! โปรดดูสไลด์การพบปะที่นี่
[2024/07] ด้วยความร่วมมือกับ Meta vLLM สนับสนุน Llama 3.1 อย่างเป็นทางการด้วยการหาปริมาณ FP8 และความขนานของไปป์ไลน์! โปรดตรวจสอบโพสต์บล็อกของเราที่นี่
[2024/06] เราจัดงานพบปะ vLLM ครั้งที่สี่กับ Cloudflare และ BentoML! โปรดดูสไลด์การพบปะที่นี่
[2024/04] เราเป็นเจ้าภาพพบปะ vLLM ครั้งที่สามกับ Roblox! โปรดดูสไลด์การพบปะที่นี่
[2024/01] เราจัดงานพบปะ vLLM ครั้งที่สองกับ IBM! โปรดดูสไลด์การพบปะที่นี่
[10/2023] เราจัดงานพบปะ vLLM ครั้งแรกกับ a16z! โปรดดูสไลด์การพบปะที่นี่
[2023/08] เราขอแสดงความขอบคุณอย่างจริงใจต่อ Andreessen Horowitz (a16z) สำหรับการมอบทุนสนับสนุนเพื่อสนับสนุนการพัฒนาโอเพ่นซอร์สและการวิจัยของ vLLM
[2023/06] เราเปิดตัว vLLM อย่างเป็นทางการ! การบูรณาการ FastChat-vLLM ได้ขับเคลื่อน LMSYS Vicuna และ Chatbot Arena ตั้งแต่กลางเดือนเมษายน ตรวจสอบโพสต์บล็อกของเรา
vLLM เป็นไลบรารีที่รวดเร็วและใช้งานง่ายสำหรับการอนุมานและการให้บริการ LLM
vLLM รวดเร็วด้วย:
ปริมาณการให้บริการที่ล้ำสมัย
การจัดการคีย์ความสนใจและหน่วยความจำค่าอย่างมีประสิทธิภาพด้วย PagedAttention
คำขอที่เข้ามาอย่างต่อเนื่อง
การดำเนินการโมเดลอย่างรวดเร็วด้วยกราฟ CUDA/HIP
การหาปริมาณ: GPTQ, AWQ, INT4, INT8 และ FP8
เคอร์เนล CUDA ที่ปรับให้เหมาะสม รวมถึงการทำงานร่วมกับ FlashAttention และ FlashInfer
การถอดรหัสเก็งกำไร
กรอกล่วงหน้าเป็นก้อน
เกณฑ์มาตรฐานประสิทธิภาพ : เรารวมเกณฑ์มาตรฐานประสิทธิภาพไว้ท้ายบล็อกโพสต์ของเรา โดยจะเปรียบเทียบประสิทธิภาพของ vLLM กับกลไกการให้บริการ LLM อื่นๆ (TensorRT-LLM, SGLang และ LMDeploy) การใช้งานอยู่ภายใต้โฟลเดอร์ nightly-benchmarks และคุณสามารถสร้างการวัดประสิทธิภาพนี้ใหม่ได้โดยใช้สคริปต์ที่รันได้ในคลิกเดียวของเรา
vLLM มีความยืดหยุ่นและใช้งานง่ายด้วย:
บูรณาการอย่างราบรื่นกับรุ่น Hugging Face ยอดนิยม
การให้บริการปริมาณงานสูงด้วยอัลกอริธึมการถอดรหัสที่หลากหลาย รวมถึง การสุ่มตัวอย่างแบบขนาน การค้นหาลำแสง และอื่นๆ
ความเท่าเทียมของเทนเซอร์และการสนับสนุนความเท่าเทียมของไปป์ไลน์สำหรับการอนุมานแบบกระจาย
เอาท์พุทสตรีมมิ่ง
เซิร์ฟเวอร์ API ที่เข้ากันได้กับ OpenAI
รองรับ NVIDIA GPU, CPU และ GPU AMD, CPU และ GPU ของ Intel, CPU PowerPC, TPU และ AWS Neuron
รองรับการแคชคำนำหน้า
รองรับหลาย Lora
vLLM รองรับโมเดลโอเพ่นซอร์สยอดนิยมส่วนใหญ่บน HuggingFace ได้อย่างราบรื่น รวมถึง:
LLM ที่มีลักษณะคล้ายหม้อแปลงไฟฟ้า (เช่น ลามะ)
LLM แบบผสมผสานของผู้เชี่ยวชาญ (เช่น Mixtral)
การฝังโมเดล (เช่น E5-Mistral)
LLM หลายรูปแบบ (เช่น LLaVA)
ค้นหารายการรุ่นที่รองรับทั้งหมดได้ที่นี่
ติดตั้ง vLLM ด้วย pip
หรือจากแหล่งที่มา:
pip ติดตั้ง vllm
เยี่ยมชมเอกสารของเราเพื่อเรียนรู้เพิ่มเติม
การติดตั้ง
เริ่มต้นอย่างรวดเร็ว
รุ่นที่รองรับ
เรายินดีและให้ความสำคัญกับการมีส่วนร่วมและความร่วมมือใดๆ โปรดตรวจสอบ CONTRIBUTING.md เพื่อดูวิธีมีส่วนร่วม
vLLM เป็นโครงการชุมชน ทรัพยากรการประมวลผลของเราสำหรับการพัฒนาและการทดสอบได้รับการสนับสนุนจากองค์กรต่อไปนี้ ขอบคุณสำหรับการสนับสนุนของคุณ!
a16z
เอเอ็มดี
ได้ทุกขนาด
AWS
ครูโซ คลาวด์
ดาต้าบริคส์
ดีพอินฟรา
ดรอปบ็อกซ์
กูเกิลคลาวด์
แล็บแลมบ์ดา
NVIDIA
ทำซ้ำ
โรบ็อกซ์
รันพอด
เซควาญาแคปิตอล
สกายเวิร์ค เอไอ
เทรนนี่
ยูซี เบิร์กลีย์
ยูซี ซานดิเอโก
ZhenFund
นอกจากนี้เรายังมีสถานที่ระดมทุนอย่างเป็นทางการผ่าน OpenCollective เราวางแผนที่จะใช้กองทุนเพื่อสนับสนุนการพัฒนา การบำรุงรักษา และการนำ vLLM มาใช้
หากคุณใช้ vLLM สำหรับการวิจัยของคุณ โปรดอ้างอิงรายงานของเรา:
@inproceedings{kwon2023efficient, title={การจัดการหน่วยความจำที่มีประสิทธิภาพสำหรับโมเดลภาษาขนาดใหญ่ที่ให้บริการด้วย PagedAttention}, ผู้แต่ง={Woosuk Kwon และ Zhuohan Li และ Siyuan Zhuang และ Ying Sheng และ Lianmin Zheng และ Cody Hao Yu และ Joseph E. Gonzalez และ Hao Zhang และ Ion Stoica}, booktitle={การดำเนินการของ ACM SIGOPS ครั้งที่ 29 Symposium on Operating Systems Principles}, ปี={2023}}
สำหรับคำถามด้านเทคนิคและการร้องขอคุณสมบัติ โปรดใช้ปัญหา Github หรือการสนทนา
สำหรับการพูดคุยกับผู้ใช้อื่น ๆ โปรดใช้ Discord
สำหรับการประสานงานการมีส่วนร่วมและการพัฒนา โปรดใช้ Slack
สำหรับการเปิดเผยด้านความปลอดภัย โปรดใช้คุณสมบัติคำแนะนำด้านความปลอดภัยของ Github
สำหรับความร่วมมือและความร่วมมือ โปรดติดต่อเราที่ vllm-questions AT list.berkeley.edu