- บล็อก | เอกสารประกอบ | เข้าร่วม Slack | เข้าร่วมการประชุมการพัฒนารายปักษ์ | สไลด์ |
ข่าว
- [10/2024] SGLang Online Meetup ครั้งแรก (สไลด์)
- [2024/09] SGLang v0.3 เปิดตัว: DeepSeek MLA ที่เร็วขึ้น 7 เท่า, torch.compile ที่เร็วขึ้น 1.5 เท่า, LLaVA-OneVision หลายภาพ/วิดีโอ (บล็อก)
- [2024/07] การแสดง Llama3 ที่เร็วขึ้นด้วย SGLang Runtime (เทียบกับ TensorRT-LLM, vLLM) (บล็อก)
มากกว่า
- [2024/02] SGLang ช่วยให้ ถอดรหัส JSON เร็วขึ้น 3 เท่า ด้วยเครื่องสถานะจำกัดที่บีบอัด (บล็อก)
- [2024/04] SGLang ถูกใช้โดยการเปิดตัว LLaVA-NeXT (วิดีโอ) อย่างเป็นทางการ (บล็อก)
- [2024/01] SGLang ให้ การอนุมานเร็วขึ้นสูงสุด 5 เท่า ด้วย RadixAttention (บล็อก)
- [2024/01] SGLang ขับเคลื่อนการให้บริการของการสาธิตการเปิดตัว LLaVA v1.6 อย่างเป็นทางการ (การใช้งาน)
เกี่ยวกับ
SGLang เป็นเฟรมเวิร์กการให้บริการที่รวดเร็วสำหรับโมเดลภาษาขนาดใหญ่และโมเดลภาษาวิชั่น ทำให้การโต้ตอบกับโมเดลเร็วขึ้นและควบคุมได้มากขึ้นโดยการออกแบบร่วมกันระหว่างรันไทม์แบ็กเอนด์และภาษาฟรอนต์เอนด์ คุณสมบัติหลักได้แก่:
- รันไทม์แบ็กเอนด์ที่รวดเร็ว : มอบการให้บริการที่มีประสิทธิภาพด้วย RadixAttention สำหรับการแคชคำนำหน้า การถอดรหัสแบบจำกัดไปข้างหน้า การแบตช์อย่างต่อเนื่อง ความสนใจของโทเค็น (ความสนใจแบบเพจ) การขนานเทนเซอร์ เคอร์เนล FlashInfer การเติมล่วงหน้าแบบก้อน และการหาปริมาณ (INT4/FP8/AWQ/GPTQ)
- ภาษาส่วนหน้าที่ยืดหยุ่น : เสนออินเทอร์เฟซที่ใช้งานง่ายสำหรับการเขียนโปรแกรมแอปพลิเคชัน LLM รวมถึงการเรียกใช้การสร้างแบบลูกโซ่ การแจ้งขั้นสูง โฟลว์การควบคุม อินพุตหลายรูปแบบ ความขนาน และการโต้ตอบภายนอก
- การสนับสนุนโมเดลที่กว้างขวาง : รองรับโมเดลกำเนิดที่หลากหลาย (Llama, Gemma, Mistral, QWen, DeepSeek, LLaVA ฯลฯ), โมเดลการฝัง (e5-mistral, gte) และโมเดลรางวัล (Skywork) พร้อมความสามารถในการขยายที่ง่ายดายสำหรับการบูรณาการใหม่ โมเดล
- ชุมชนที่กระตือรือร้น : SGLang เป็นโอเพ่นซอร์สและได้รับการสนับสนุนจากชุมชนที่กระตือรือร้นพร้อมการยอมรับในอุตสาหกรรม
เริ่มต้นใช้งาน
ติดตั้ง SGLang: ดู https://sgl-project.github.io/start/install.html
ส่งคำขอ: ดู https://sgl-project.github.io/start/send_request.html
แบ็กเอนด์: SGLang Runtime (SRT)
ดูhttps://sgl-project.github.io/backend/backend.html
ส่วนหน้า: ภาษาการสร้างโครงสร้าง (SGLang)
ดูhttps://sgl-project.github.io/frontend/frontend.html
เกณฑ์มาตรฐานและประสิทธิภาพ
เรียนรู้เพิ่มเติมในบล็อกการเปิดตัวของเรา: บล็อก v0.2, บล็อก v0.3
แผนการทำงาน
แผนงานการพัฒนา (ไตรมาส 4 ปี 2567)
การอ้างอิงและการรับทราบ
โปรดอ้างอิงเอกสารของเรา SGLang: Efficient Execution of Structured Language Model Programs หากคุณพบว่าโครงการนี้มีประโยชน์ นอกจากนี้เรายังได้เรียนรู้จากการออกแบบและโค้ดที่นำมาใช้ซ้ำจากโปรเจ็กต์ต่อไปนี้: Guidance, vLLM, LightLLM, FlashInfer, Outlines และ LMQL