| Blog | Dokumentasi | Bergabunglah dengan Slack | Bergabunglah dalam Pertemuan Pembangunan Dua Mingguan | Slide |
Berita
- [2024/10] Pertemuan Online SGLang Pertama (slide).
- [2024/09] Rilis SGLang v0.3: MLA DeepSeek 7x Lebih Cepat, kompilasi obor 1,5x Lebih Cepat, LLaVA-OneVision Multi-Gambar/Video (blog).
- [2024/07] Penyajian Llama3 Lebih Cepat dengan SGLang Runtime (vs. TensorRT-LLM, vLLM) (blog).
Lagi
- [2024/02] SGLang memungkinkan decoding JSON 3x lebih cepat dengan mesin keadaan terbatas terkompresi (blog).
- [2024/04] SGLang digunakan oleh rilis resmi LLaVA-NeXT (video) (blog).
- [2024/01] SGLang menyediakan inferensi hingga 5x lebih cepat dengan RadixAttention (blog).
- [2024/01] SGLang mendukung penyajian demo rilis resmi LLaVA v1.6 (penggunaan).
Tentang
SGLang adalah kerangka kerja cepat untuk model bahasa besar dan model bahasa visi. Itu membuat interaksi Anda dengan model lebih cepat dan lebih terkendali dengan merancang bersama runtime backend dan bahasa frontend. Fitur inti meliputi:
- Waktu Proses Backend Cepat : Menyediakan penyajian yang efisien dengan RadixAttention untuk caching awalan, decoding terbatas jump-forward, batching berkelanjutan, perhatian token (perhatian halaman), paralelisme tensor, kernel FlashInfer, prefill yang dipotong, dan kuantisasi (INT4/FP8/AWQ/GPTQ).
- Bahasa Frontend Fleksibel : Menawarkan antarmuka intuitif untuk pemrograman aplikasi LLM, termasuk panggilan generasi berantai, perintah lanjutan, aliran kontrol, input multi-modal, paralelisme, dan interaksi eksternal.
- Dukungan Model yang Luas : Mendukung berbagai model generatif (Llama, Gemma, Mistral, QWen, DeepSeek, LLaVA, dll.), model penyematan (e5-mistral, gte) dan model penghargaan (Skywork), dengan ekstensibilitas yang mudah untuk mengintegrasikan model baru model.
- Komunitas Aktif : SGLang bersifat open-source dan didukung oleh komunitas aktif dengan adopsi industri.
Memulai
Instal SGLang: Lihat https://sgl-project.github.io/start/install.html
Kirim permintaan: Lihat https://sgl-project.github.io/start/send_request.html
Bagian Belakang: Waktu Proses SGLang (SRT)
Lihat https://sgl-project.github.io/backend/backend.html
Frontend: Bahasa Generasi Terstruktur (SGLang)
Lihat https://sgl-project.github.io/frontend/frontend.html
Tolok Ukur Dan Kinerja
Pelajari lebih lanjut di blog rilis kami: blog v0.2, blog v0.3
Peta jalan
Peta Jalan Pembangunan (Q4 2024)
Kutipan dan Pengakuan
Silakan kutip makalah kami, SGLang: Eksekusi Efisien dari Program Model Bahasa Terstruktur, jika Anda merasa proyek ini bermanfaat. Kami juga belajar dari desain dan penggunaan kembali kode dari proyek berikut: Guidance, vLLM, LightLLM, FlashInfer, Outlines, dan LMQL.