| Блог | Документация | Присоединяйтесь к Slack | Присоединяйтесь к встречам разработчиков, проводимым раз в две недели | Слайды |
Новости
- [2024/10] Первая онлайн-встреча SGLang (слайды).
- [2024/09] Выпуск SGLang v0.3: в 7 раз быстрее DeepSeek MLA, в 1,5 раза быстрее torch.compile, многоизображение/видео LLaVA-OneVision (блог).
- [2024/07] Более быстрое обслуживание Llama3 с помощью среды выполнения SGLang (по сравнению с TensorRT-LLM, vLLM) (блог).
Более
- [2024/02] SGLang обеспечивает в 3 раза более быстрое декодирование JSON с помощью сжатого конечного автомата (блог).
- [2024/04] SGLang используется в официальном выпуске LLaVA-NeXT (видео) (блог).
- [2024/01] SGLang обеспечивает до 5 раз более быстрый вывод с помощью RadixAttention (блог).
- [2024/01] SGLang обеспечивает предоставление официальной демо-версии LLaVA v1.6 (использование).
О
SGLang — это платформа быстрого обслуживания для больших языковых моделей и моделей визуального языка. Это делает ваше взаимодействие с моделями более быстрым и более контролируемым за счет совместной разработки внутренней среды выполнения и языка внешнего интерфейса. Основные функции включают в себя:
- Fast Backend Runtime : обеспечивает эффективное обслуживание с помощью RadixAttention для кэширования префиксов, ограниченного декодирования с переходом вперед, непрерывной пакетной обработки, внимания к токенам (постраничное внимание), тензорного параллелизма, ядер FlashInfer, фрагментированного предварительного заполнения и квантования (INT4/FP8/AWQ/GPTQ).
- Гибкий интерфейсный язык : предлагает интуитивно понятный интерфейс для программирования приложений LLM, включая вызовы цепочки генерации, расширенные подсказки, поток управления, многомодальные входы, параллелизм и внешние взаимодействия.
- Обширная поддержка моделей : поддерживает широкий спектр генеративных моделей (Llama, Gemma, Mistral, QWen, DeepSeek, LLaVA и т. д.), моделей внедрения (e5-mistral, gte) и моделей вознаграждения (Skywork), с возможностью легкого расширения для интеграции новых. модели.
- Активное сообщество : SGLang имеет открытый исходный код и поддерживается активным сообществом, принятым в отрасли.
Начиная
Установите SGLang: см. https://sgl-project.github.io/start/install.html.
Отправка запросов: см. https://sgl-project.github.io/start/send_request.html.
Бэкэнд: SGLang Runtime (SRT)
См. https://sgl-project.github.io/backend/backend.html.
Интерфейс: язык структурированной генерации (SGLang)
См. https://sgl-project.github.io/frontend/frontend.html.
Тест и производительность
Узнайте больше в наших блогах о выпусках: блог v0.2, блог v0.3.
Дорожная карта
Дорожная карта развития (4 квартал 2024 г.)
Цитирование и признание
Пожалуйста, цитируйте нашу статью SGLang: Efficient Execution of Structured Language Model Programs, если вы считаете этот проект полезным. Мы также извлекли уроки из дизайна и повторно использовали код из следующих проектов: Guidance, vLLM, LightLLM, FlashInfer, Outlines и LMQL.