|ドキュメント|ブログ|紙|不和|ツイッター/X |開発者スラック|
vLLM x Snowflake Meetup (11 月 13 日水曜日、太平洋時間午後 5 時 30 分~午後 8 時)、サンマテオのスノーフレーク本社で開催
今年最後の対面での vLLM ミートアップを発表できることを嬉しく思います。 Snowflake AI Research の vLLM 開発者やエンジニアに参加して、最新の LLM 推論の最適化や 2025 年の vLLM ウィッシュリストについてチャットしましょう。ここから登録してイベントに参加してください!
最新ニュース?
[2024/10] 貢献の調整と機能の議論に焦点を当てた開発者スラック (slack.vllm.ai) を作成しました。ぜひお気軽にご参加ください!
[2024/10] Ray Summit 2024でvLLMのスペシャルトラックを開催しました! vLLM チームによる冒頭の講演スライドはこちらからご覧ください。他の vLLM 貢献者やユーザーからの講演からさらに詳しく学んでください。
[2024/09] NVIDIAと第6回vLLMミートアップを開催しました!交流会のスライドはこちらからご覧ください。
[2024/07] AWSとの第5回vLLMミートアップを開催しました!交流会のスライドはこちらからご覧ください。
[2024/07] Meta との提携により、vLLM は FP8 量子化とパイプライン並列処理を備えた Llama 3.1 を正式にサポートします。こちらのブログ投稿をご覧ください。
[2024/06] CloudflareとBentoMLで第4回vLLMミートアップを開催しました!交流会のスライドはこちらからご覧ください。
[2024/04] Robloxとの第3回vLLMミートアップを開催しました!交流会のスライドはこちらからご覧ください。
[2024/01] IBMとの第2回vLLMミートアップを開催しました!交流会のスライドはこちらからご覧ください。
[2023/10] a16zとの第1回vLLMミートアップを開催しました!交流会のスライドはこちらからご覧ください。
[2023/08] vLLM のオープンソース開発と研究をサポートするために寛大な助成金を提供してくださった Andreessen Horowitz (a16z) に心より感謝の意を表します。
[2023/06] vLLMを正式リリースしました! FastChat-vLLM の統合により、4 月中旬以降、LMSYS Vicuna と Chatbot Arena が強化されました。ブログ投稿をご覧ください。
vLLM は、LLM 推論と提供のための高速で使いやすいライブラリです。
vLLM は次の点で高速です。
最先端のサービス スループット
PagedAttendantによるアテンション キーと値のメモリの効率的な管理
受信リクエストの継続的なバッチ処理
CUDA/HIP グラフによる高速モデル実行
量子化: GPTQ、AWQ、INT4、INT8、FP8。
FlashAttendant および FlashInfer との統合を含む、最適化された CUDA カーネル。
投機的デコード
チャンクプレフィル
パフォーマンス ベンチマーク: ブログ投稿の最後にパフォーマンス ベンチマークを記載しています。 vLLM のパフォーマンスを他の LLM サービング エンジン (TensorRT-LLM、SGLang、LMDeploy) と比較します。実装は nightly-benchmarks フォルダーの下にあり、ワンクリックで実行可能なスクリプトを使用してこのベンチマークを再現できます。
vLLM は柔軟性があり、次の場合に簡単に使用できます。
人気のハグフェイスモデルとのシームレスな統合
並列サンプリング、ビームサーチなどを含むさまざまなデコードアルゴリズムによる高スループットのサービス
分散推論のためのテンソル並列処理とパイプライン並列処理のサポート
ストリーミング出力
OpenAI対応APIサーバー
NVIDIA GPU、AMD CPU と GPU、Intel CPU と GPU、PowerPC CPU、TPU、AWS Neuron をサポートします。
プレフィックス キャッシュのサポート
マルチロラのサポート
vLLM は、HuggingFace で次のような最も人気のあるオープンソース モデルをシームレスにサポートします。
トランスフォーマーのような LLM (Llama など)
Mixture-of-Expert LLM (Mixtral など)
埋め込みモデル (例: E5-Mistral)
マルチモーダル LLM (LLaVA など)
サポートされているモデルの完全なリストはここでご覧ください。
pip
を使用して、またはソースから vLLM をインストールします。
pip インストール vllm
詳細については、ドキュメントを参照してください。
インストール
クイックスタート
対応機種
私たちはあらゆる貢献と協力を歓迎し、評価します。参加方法については、CONTRIBUTING.md をご覧ください。
vLLM はコミュニティ プロジェクトです。開発およびテスト用のコンピューティング リソースは、次の組織によってサポートされています。ご支援ありがとうございます!
a16z
AMD
エニースケール
AWS
クルーソークラウド
データブリック
ディープインフラ
ドロップボックス
グーグルクラウド
ラムダラボ
エヌビディア
複製する
ロブロックス
ランポッド
セコイア キャピタル
スカイワークAI
トレーニー
カリフォルニア大学バークレー校
カリフォルニア大学サンディエゴ校
ジェンファンド
OpenCollective を通じた公式の募金会場もあります。この資金は、vLLM の開発、保守、導入をサポートするために使用される予定です。
研究に vLLM を使用する場合は、次の論文を引用してください。
@inproceedings{kwon2023efficient, title={PagesAttention を使用した大規模言語モデルの効率的なメモリ管理}, author={Woosuk Kwon、Zhuohan Li、Siyuan Zhuang、Ying Sheng、Lianmin Zheng、Cody Hao Yu、Joseph E. Gonzalez、Hao Zhang、 Ion Stoica}、booktitle={ACM SIGOPS の議事録第 29 回オペレーティング システム原則に関するシンポジウム}、年={2023}}
技術的な質問や機能リクエストについては、Github の問題またはディスカッションを使用してください。
他のユーザーとディスカッションするには Discord をご利用ください。
コントリビューションや開発を調整するには、Slack を使用してください。
セキュリティの開示については、Github のセキュリティ アドバイザリー機能をご利用ください。
コラボレーションやパートナーシップについては、vllm-questions AT lists.berkeley.edu までお問い合わせください。