|ブログ|ドキュメント| Slack に参加する|隔週の開発会議に参加する|スライド|
ニュース
- [2024/10] 第 1 回 SGLang オンライン ミートアップ (スライド)。
- [2024/09] SGLang v0.3 リリース: 7 倍高速な DeepSeek MLA、1.5 倍高速な torch.compile、マルチイメージ/ビデオ LLaVA-OneVision (ブログ)。
- [2024/07] SGLang ランタイムによる Llama3 の高速化 (対 TensorRT-LLM、vLLM) (ブログ)。
もっと
- [2024/02] SGLang は圧縮有限状態マシンを使用して3 倍高速な JSON デコードを可能にします (ブログ)。
- [2024/04] LLaVA-NeXT公式(ビデオ)リリース(ブログ)でSGLangが採用されました。
- [2024/01] SGLang は、RadixAttendant (ブログ) を使用して最大5 倍高速な推論を提供します。
- [2024/01] SGLang は、公式LLaVA v1.6リリース デモ (使用法) の提供を強化します。
について
SGLang は、大規模な言語モデルとビジョン言語モデルに高速に対応するフレームワークです。バックエンド ランタイムとフロントエンド言語を共同設計することで、モデルとの対話がより高速になり、より制御しやすくなります。主な機能には次のようなものがあります。
- 高速バックエンド ランタイム: プレフィックス キャッシュ、ジャンプフォワード制約付きデコード、連続バッチ処理、トークン アテンション (ページ アテンション)、テンソル並列処理、FlashInfer カーネル、チャンク プレフィル、量子化 (INT4/FP8/AWQ/GPTQ) に対して、Radixtention による効率的なサービスを提供します。
- 柔軟なフロントエンド言語: 連鎖生成呼び出し、高度なプロンプト、制御フロー、マルチモーダル入力、並列処理、外部対話など、LLM アプリケーションをプログラミングするための直感的なインターフェイスを提供します。
- 広範なモデルのサポート: 幅広い生成モデル (Llama、Gemma、Mistral、QWen、DeepSeek、LLaVA など)、埋め込みモデル (e5-mistral、gte)、報酬モデル (Skywork) をサポートし、新しいモデルを統合するための簡単な拡張性を備えています。モデル。
- 活発なコミュニティ: SGLang はオープンソースであり、業界で採用されている活発なコミュニティによって支えられています。
はじめる
SGLang のインストール: https://sgl-project.github.io/start/install.html を参照してください。
リクエストの送信: https://sgl-project.github.io/start/send_request.html を参照してください。
バックエンド: SGLang ランタイム (SRT)
https://sgl-project.github.io/backend/backend.html を参照してください。
フロントエンド: 構造化生成言語 (SGLang)
https://sgl-project.github.io/frontend/frontend.html を参照してください。
ベンチマークとパフォーマンス
詳細については、リリース ブログをご覧ください: v0.2 ブログ、v0.3 ブログ
ロードマップ
開発ロードマップ (2024 年第 4 四半期)
引用と謝辞
このプロジェクトが役立つと思われる場合は、私たちの論文「SGLang: 構造化言語モデル プログラムの効率的な実行」を引用してください。また、設計から学び、Guidance、vLLM、LightLLM、FlashInfer、Outlines、LMQL プロジェクトのコードを再利用しました。