| Документация | Блог | Бумага | Раздор | Твиттер/Х | Разработчик Slack |
Встреча vLLM x Snowflake (среда, 13 ноября, 17:30–20:00 по тихоокеанскому времени) в штаб-квартире Snowflake, Сан-Матео
Мы рады объявить о последней личной встрече vLLM в этом году! Присоединяйтесь к разработчикам и инженерам vLLM из Snowflake AI Research, чтобы обсудить последние оптимизации вывода LLM и список пожеланий vLLM на 2025 год! Зарегистрируйтесь здесь и станьте частью мероприятия!
Последние новости ?
[2024/10] Мы только что создали группу разработчиков (slack.vllm.ai), в которой основное внимание уделяется координации вкладов и обсуждению функций. Пожалуйста, не стесняйтесь присоединиться к нам там!
[2024/10] Ray Summit 2024 провел специальный трек для vLLM! Слайды вступительного доклада команды vLLM можно найти здесь. Узнайте больше из выступлений других участников и пользователей vLLM!
[2024/09] Мы провели шестую встречу vLLM с NVIDIA! Слайды встречи можно найти здесь.
[2024/07] Мы провели пятую встречу vLLM с AWS! Слайды встречи можно найти здесь.
[2024/07] В сотрудничестве с Meta vLLM официально поддерживает Llama 3.1 с квантованием FP8 и конвейерным параллелизмом! Пожалуйста, ознакомьтесь с публикацией в нашем блоге здесь.
[2024/06] Мы провели четвертую встречу vLLM с Cloudflare и BentoML! Слайды встречи можно найти здесь.
[2024/04] Мы провели третью встречу vLLM с Roblox! Слайды встречи можно найти здесь.
[2024/01] Мы провели вторую встречу vLLM с IBM! Слайды встречи можно найти здесь.
[2023/10] Мы провели первую встречу vLLM с a16z! Слайды встречи можно найти здесь.
[2023/08] Мы хотели бы выразить нашу искреннюю благодарность Андреессену Горовицу (a16z) за предоставление щедрого гранта для поддержки разработки и исследования vLLM с открытым исходным кодом.
[2023/06] Мы официально выпустили vLLM! Интеграция FastChat-vLLM используется в LMSYS Vicuna и Chatbot Arena с середины апреля. Ознакомьтесь с публикацией в нашем блоге.
vLLM — это быстрая и простая в использовании библиотека для вывода и обслуживания LLM.
vLLM работает быстро:
Современная пропускная способность обслуживания
Эффективное управление памятью ключей и значений внимания с помощью PagedAttention
Непрерывная пакетная обработка входящих запросов.
Быстрое выполнение модели с помощью графа CUDA/HIP
Квантования: GPTQ, AWQ, INT4, INT8 и FP8.
Оптимизированные ядра CUDA, включая интеграцию с FlashAttention и FlashInfer.
Спекулятивное декодирование
Частичное заполнение
Тест производительности : мы включили тест производительности в конце нашего блога. Он сравнивает производительность vLLM с другими обслуживающими механизмами LLM (TensorRT-LLM, SGLang и LMDeploy). Реализация находится в папке Nightly-Benchmarks, и вы можете воспроизвести этот тест, используя наш скрипт, запускаемый одним щелчком мыши.
vLLM гибок и прост в использовании благодаря:
Полная интеграция с популярными моделями Hugging Face.
Высокопроизводительное обслуживание с различными алгоритмами декодирования, включая параллельную выборку , поиск луча и многое другое.
Поддержка тензорного параллелизма и конвейерного параллелизма для распределенного вывода.
Потоковые выходы
OpenAI-совместимый API-сервер
Поддержка графических процессоров NVIDIA, процессоров и графических процессоров AMD, процессоров и графических процессоров Intel, процессоров PowerPC, TPU и AWS Neuron.
Поддержка кэширования префиксов
Мультилора поддержка
vLLM полностью поддерживает большинство популярных моделей с открытым исходным кодом на HuggingFace, в том числе:
Трансформаторные LLM (например, Llama)
LLM с разными экспертами (например, Mixtral)
Встраивание моделей (например, E5-Mistral)
Мультимодальные LLM (например, LLaVA)
Полный список поддерживаемых моделей можно найти здесь.
Установите vLLM с помощью pip
или из исходного кода:
pip установить vllm
Посетите нашу документацию, чтобы узнать больше.
Установка
Быстрый старт
Поддерживаемые модели
Мы приветствуем и ценим любой вклад и сотрудничество. Пожалуйста, посетите CONTRIBUTING.md, чтобы узнать, как принять участие.
vLLM — это общественный проект. Наши вычислительные ресурсы для разработки и тестирования поддерживаются следующими организациями. Спасибо за вашу поддержку!
a16z
АМД
Любой масштаб
АВС
Облако Крузо
Блоки данных
DeepInfra
Дропбокс
Google Облако
Лямбда Лаборатория
NVIDIA
Репликация
Роблокс
RunPod
Секвойя Капитал
Скайворк ИИ
Трейни
Калифорнийский университет в Беркли
Калифорнийский университет в Сан-Диего
ЖенФонд
У нас также есть официальная площадка для сбора средств через OpenCollective. Мы планируем использовать этот фонд для поддержки разработки, обслуживания и внедрения vLLM.
Если вы используете vLLM для своих исследований, пожалуйста, цитируйте нашу статью:
@inproceedings{kwon2023efficient, title={Эффективное управление памятью для обслуживания больших языковых моделей с помощью PagedAttention}, автор={Вусук Квон, Чжуохан Ли, Сиюань Чжуан, Ин Шэн, Ляньминь Чжэн и Коди Хао Ю, Джозеф Э. Гонсалес, Хао Чжан и Ион Стойка}, booktitle={Труды АКМ 29-й симпозиум SIGOPS по принципам операционных систем}, год={2023}}
Если у вас есть технические вопросы и пожелания по функциям, пожалуйста, используйте вопросы или обсуждения Github.
Для обсуждения с другими пользователями используйте Discord.
Для координации вклада и развития используйте Slack.
Для раскрытия информации о безопасности используйте функцию рекомендаций по безопасности Github.
По вопросам сотрудничества и партнерства обращайтесь к нам по адресу vllm-questions AT lists.berkeley.edu.