| التوثيق | مدونة | ورق | الخلاف | تويتر/X | المطور سلاك |
vLLM x Snowflake Meetup (الأربعاء، 13 نوفمبر، 5:30 - 8 مساءً بتوقيت المحيط الهادئ) في المقر الرئيسي لـ Snowflake، سان ماتيو
يسعدنا أن نعلن عن آخر لقاء شخصي لـ vLLM لهذا العام! انضم إلى مطوري ومهندسي vLLM من Snowflake AI Research للدردشة حول أحدث تحسينات استدلال LLM وقائمة أمنيات vLLM لعام 2025! سجل هنا وكن جزءا من الحدث!
آخر الأخبار ؟
[2024/10] لقد أنشأنا للتو مطور Slack (slack.vllm.ai) يركز على تنسيق المساهمات ومناقشة الميزات. لا تتردد في الانضمام إلينا هناك!
[2024/10] عقدت Ray Summit 2024 مسارًا خاصًا لـ vLLM! يرجى الاطلاع على شرائح الحديث الافتتاحية من فريق vLLM هنا. تعرف على المزيد من المحادثات من المساهمين والمستخدمين الآخرين في vLLM!
[2024/09] استضفنا لقاء vLLM السادس مع NVIDIA! يرجى العثور على شرائح اللقاء هنا.
[2024/07] استضفنا لقاء vLLM الخامس مع AWS! يرجى العثور على شرائح اللقاء هنا.
[2024/07] بالشراكة مع Meta، يدعم vLLM رسميًا Llama 3.1 مع تكميم FP8 وتوازي خطوط الأنابيب! من فضلك قم بمراجعة منشور مدونتنا هنا.
[2024/06] استضفنا لقاء vLLM الرابع مع Cloudflare وBentoML! يرجى العثور على شرائح اللقاء هنا.
[2024/04] استضفنا لقاء vLLM الثالث مع Roblox! يرجى العثور على شرائح اللقاء هنا.
[2024/01] استضفنا لقاء vLLM الثاني مع IBM! يرجى العثور على شرائح اللقاء هنا.
[2023/10] استضفنا أول لقاء لـ vLLM مع a16z! يرجى العثور على شرائح اللقاء هنا.
[2023/08] نود أن نعرب عن خالص امتناننا لأندريسن هورويتز (a16z) لتقديم منحة سخية لدعم تطوير المصادر المفتوحة والبحث في vLLM.
[2023/06] أطلقنا vLLM رسميًا! يعمل تكامل FastChat-vLLM على تشغيل LMSYS Vicuna وChatbot Arena منذ منتصف أبريل. تحقق من مشاركة بلوق لدينا.
vLLM هي مكتبة سريعة وسهلة الاستخدام لاستدلال وتقديم LLM.
vLLM سريع مع:
أحدث إنتاجية الخدمة
إدارة فعالة لمفتاح الانتباه وذاكرة القيمة باستخدام PagedAttention
التجميع المستمر للطلبات الواردة
تنفيذ سريع للنموذج باستخدام الرسم البياني CUDA/HIP
الكميات: GPTQ، AWQ، INT4، INT8، وFP8.
نواة CUDA محسنة، بما في ذلك التكامل مع FlashAttention وFlashInfer.
فك التشفير التخميني
تعبئة مسبقة مقسمة
معيار الأداء : نقوم بتضمين معيار الأداء في نهاية منشور مدونتنا. فهو يقارن أداء vLLM مع محركات تقديم LLM الأخرى (TensorRT-LLM وSGLang وLMDeploy). يتم التنفيذ ضمن مجلد المعايير الليلية ويمكنك إعادة إنتاج هذا المعيار باستخدام البرنامج النصي القابل للتشغيل بنقرة واحدة.
vLLM مرن وسهل الاستخدام مع:
التكامل السلس مع نماذج Hugging Face الشهيرة
خدمة إنتاجية عالية مع خوارزميات فك التشفير المختلفة، بما في ذلك أخذ العينات المتوازية والبحث عن الشعاع والمزيد
توازي الموتر وتوازي خطوط الأنابيب يدعمان الاستدلال الموزع
تدفق المخرجات
خادم API متوافق مع OpenAI
دعم وحدات معالجة الرسومات NVIDIA، ووحدات المعالجة المركزية AMD ووحدات معالجة الرسومات، ووحدات المعالجة المركزية Intel ووحدات معالجة الرسومات، ووحدات المعالجة المركزية PowerPC، وTPU، وAWS Neuron.
دعم التخزين المؤقت للبادئة
دعم متعدد لورا
يدعم vLLM النماذج مفتوحة المصدر الأكثر شيوعًا على HuggingFace بسلاسة، بما في ذلك:
LLMs الشبيهة بالمحولات (مثل اللاما)
مزيج من خبراء LLM (على سبيل المثال، Mixtral)
نماذج التضمين (مثل E5-Mistral)
LLM متعدد الوسائط (على سبيل المثال، LLaVA)
ابحث عن القائمة الكاملة للنماذج المدعومة هنا.
تثبيت vLLM pip
أو من المصدر:
تثبيت النقطة vllm
تفضل بزيارة وثائقنا لمعرفة المزيد.
تثبيت
بداية سريعة
النماذج المدعومة
ونحن نرحب ونقدر أي مساهمات والتعاون. يرجى مراجعة CONTRIBUTING.md لمعرفة كيفية المشاركة.
vLLM هو مشروع مجتمعي. يتم دعم مواردنا الحاسوبية للتطوير والاختبار من قبل المؤسسات التالية. شكرا لدعمكم!
a16z
أيه إم دي
بأي مقياس
أوس
سحابة كروزو
طوب البيانات
DeepInfra
دروببوإكس
جوجل كلاود
مختبر لامدا
نفيديا
تكرار
روبلوكس
RunPod
سيكويا كابيتال
سكاي وورك الذكاء الاصطناعي
ترينى
جامعة كاليفورنيا في بيركلي
جامعة كاليفورنيا في سان دييغو
ZhenFund
لدينا أيضًا مكان رسمي لجمع التبرعات من خلال OpenCollective. نحن نخطط لاستخدام الصندوق لدعم تطوير وصيانة واعتماد vLLM.
إذا كنت تستخدم vLLM لبحثك، فيرجى الاستشهاد بمقالتنا:
@inproceedings{kwon2023efficiency، العنوان={إدارة فعالة للذاكرة لنموذج اللغة الكبير الذي يخدم PagedAttention}، المؤلف={Woosuk Kwon وZhuohan Li وSiyuan Zhuang وYing Sheng وLianmin Zheng وCody Hao Yu وJoseph E. Gonzalez وHao Zhang و Ion Stoica}, booktitle={Proceedings of the ACM SIGOPS الندوة التاسعة والعشرون لمبادئ أنظمة التشغيل}، العام={2023}}
بالنسبة للأسئلة الفنية وطلبات الميزات، يرجى استخدام مشكلات أو مناقشات Github.
للمناقشة مع زملائك المستخدمين، يرجى استخدام Discord.
لتنسيق المساهمات والتطوير، يرجى استخدام Slack.
بالنسبة للإفصاحات الأمنية، يرجى استخدام ميزة الاستشارات الأمنية في Github.
للتعاون والشراكات، يرجى الاتصال بنا على vllm-questions AT lists.berkeley.edu.