vllmダウンロード - vllmソースコードのダウンロード

vllm

その他のソースコード

0.6.3.post1

ダウンロード

誰でも簡単、迅速、安価に LLM を提供

|ドキュメント|ブログ|紙|不和|ツイッター/X |開発者スラック|

vLLM x Snowflake Meetup (11 月 13 日水曜日、太平洋時間午後 5 時 30 分～午後 8 時)、サンマテオのスノーフレーク本社で開催

今年最後の対面での vLLM ミートアップを発表できることを嬉しく思います。 Snowflake AI Research の vLLM 開発者やエンジニアに参加して、最新の LLM 推論の最適化や 2025 年の vLLM ウィッシュリストについてチャットしましょう。ここから登録してイベントに参加してください！

最新ニュース？

[2024/10] 貢献の調整と機能の議論に焦点を当てた開発者スラック (slack.vllm.ai) を作成しました。ぜひお気軽にご参加ください！
[2024/10] Ray Summit 2024でvLLMのスペシャルトラックを開催しました！ vLLM チームによる冒頭の講演スライドはこちらからご覧ください。他の vLLM 貢献者やユーザーからの講演からさらに詳しく学んでください。
[2024/09] NVIDIAと第6回vLLMミートアップを開催しました！交流会のスライドはこちらからご覧ください。
[2024/07] AWSとの第5回vLLMミートアップを開催しました！交流会のスライドはこちらからご覧ください。
[2024/07] Meta との提携により、vLLM は FP8 量子化とパイプライン並列処理を備えた Llama 3.1 を正式にサポートします。こちらのブログ投稿をご覧ください。
[2024/06] CloudflareとBentoMLで第4回vLLMミートアップを開催しました！交流会のスライドはこちらからご覧ください。
[2024/04] Robloxとの第3回vLLMミートアップを開催しました！交流会のスライドはこちらからご覧ください。
[2024/01] IBMとの第2回vLLMミートアップを開催しました！交流会のスライドはこちらからご覧ください。
[2023/10] a16zとの第1回vLLMミートアップを開催しました！交流会のスライドはこちらからご覧ください。
[2023/08] vLLM のオープンソース開発と研究をサポートするために寛大な助成金を提供してくださった Andreessen Horowitz (a16z) に心より感謝の意を表します。
[2023/06] vLLMを正式リリースしました！ FastChat-vLLM の統合により、4 月中旬以降、LMSYS Vicuna と Chatbot Arena が強化されました。ブログ投稿をご覧ください。

について

vLLM は、LLM 推論と提供のための高速で使いやすいライブラリです。

vLLM は次の点で高速です。

最先端のサービススループット
PagedAttendantによるアテンションキーと値のメモリの効率的な管理
受信リクエストの継続的なバッチ処理
CUDA/HIP グラフによる高速モデル実行
量子化: GPTQ、AWQ、INT4、INT8、FP8。
FlashAttendant および FlashInfer との統合を含む、最適化された CUDA カーネル。
投機的デコード
チャンクプレフィル

パフォーマンスベンチマーク: ブログ投稿の最後にパフォーマンスベンチマークを記載しています。 vLLM のパフォーマンスを他の LLM サービングエンジン (TensorRT-LLM、SGLang、LMDeploy) と比較します。実装は nightly-benchmarks フォルダーの下にあり、ワンクリックで実行可能なスクリプトを使用してこのベンチマークを再現できます。

vLLM は柔軟性があり、次の場合に簡単に使用できます。

人気のハグフェイスモデルとのシームレスな統合
並列サンプリング、ビームサーチなどを含むさまざまなデコードアルゴリズムによる高スループットのサービス
分散推論のためのテンソル並列処理とパイプライン並列処理のサポート
ストリーミング出力
OpenAI対応APIサーバー
NVIDIA GPU、AMD CPU と GPU、Intel CPU と GPU、PowerPC CPU、TPU、AWS Neuron をサポートします。
プレフィックスキャッシュのサポート
マルチロラのサポート

vLLM は、HuggingFace で次のような最も人気のあるオープンソースモデルをシームレスにサポートします。

トランスフォーマーのような LLM (Llama など)
Mixture-of-Expert LLM (Mixtral など)
埋め込みモデル (例: E5-Mistral)
マルチモーダル LLM (LLaVA など)

サポートされているモデルの完全なリストはここでご覧ください。

はじめる

pipを使用して、またはソースから vLLM をインストールします。

 pip インストール vllm

詳細については、ドキュメントを参照してください。

インストール
クイックスタート
対応機種

貢献する

私たちはあらゆる貢献と協力を歓迎し、評価します。参加方法については、CONTRIBUTING.md をご覧ください。

スポンサー

vLLM はコミュニティプロジェクトです。開発およびテスト用のコンピューティングリソースは、次の組織によってサポートされています。ご支援ありがとうございます!

a16z
AMD
エニースケール
AWS
クルーソークラウド
データブリック
ディープインフラ
ドロップボックス
グーグルクラウド
ラムダラボ
エヌビディア
複製する
ロブロックス
ランポッド
セコイアキャピタル
スカイワークAI
トレーニー
カリフォルニア大学バークレー校
カリフォルニア大学サンディエゴ校
ジェンファンド

OpenCollective を通じた公式の募金会場もあります。この資金は、vLLM の開発、保守、導入をサポートするために使用される予定です。

引用

研究に vLLM を使用する場合は、次の論文を引用してください。

 @inproceedings{kwon2023efficient, title={PagesAttention を使用した大規模言語モデルの効率的なメモリ管理}, author={Woosuk Kwon、Zhuohan Li、Siyuan Zhuang、Ying Sheng、Lianmin Zheng、Cody Hao Yu、Joseph E. Gonzalez、Hao Zhang、 Ion Stoica}、booktitle={ACM SIGOPS の議事録第 29 回オペレーティング システム原則に関するシンポジウム}、年={2023}}