vllm下載 - vllm原始碼下載

vllm

其他源碼

0.6.3.post1

下載

簡單、快速、便宜的 LLM 為每個人提供服務

|文檔|部落格|紙|不和諧|推特/X |開發人員 Slack |

vLLM x Snowflake 聚會（太平洋時間 11 月 13 日星期三下午 5:30-8 點）在聖馬刁 Snowflake 總部舉行

我們很高興地宣布今年最後一次面對面的 vLLM 聚會！與 Snowflake AI Research 的 vLLM 開發人員和工程師一起討論最新的 LLM 推理優化以及您的 2025 年 vLLM 願望清單！在此註冊並成為活動的一部分！

最新消息？

[2024/10] 我們剛剛創建了一個開發人員 slack (slack.vllm.ai)，專注於協調貢獻和討論功能。請隨時加入我們！
[2024/10] Ray Summit 2024舉辦vLLM專場！請在此處找到 vLLM 團隊的開場演講幻燈片。從其他 vLLM 貢獻者和用戶的演講中了解更多！
[2024/09] 我們與 NVIDIA 舉辦了第六次 vLLM 派對！請在此處尋找聚會幻燈片。
[2024/07] 我們與 AWS 舉辦了第五次 vLLM 聚會！請在此處尋找聚會幻燈片。
[2024/07] vLLM與Meta合作，正式支援具有FP8量化和管道並行性的Llama 3.1！請在此處查看我們的部落格文章。
[2024/06] 我們與 Cloudflare 和 BentoML 舉辦了第四次 vLLM 聚會！請在此處尋找聚會幻燈片。
[2024/04] 我們與 Roblox 舉辦了第三次 vLLM 聚會！請在此處尋找聚會幻燈片。
[2024/01] 我們與 IBM 舉辦了第二次 vLLM 聚會！請在此處尋找聚會幻燈片。
[2023/10] 我們與 a16z 舉辦了第一次 vLLM 聚會！請在此處尋找聚會幻燈片。
[2023/08] 我們衷心感謝Andreessen Horowitz (a16z)提供慷慨資助支持vLLM的開源開發和研究。
[2023/06] vLLM正式發布！自 4 月中旬以來，FastChat-vLLM 整合已為 LMSYS Vicuna 和 Chatbot Arena 提供支援。查看我們的部落格文章。

關於

vLLM 是一個快速且易於使用的 LLM 推理和服務函式庫。

vLLM 的速度很快：

最先進的服務吞吐量
使用PagedAttention高效管理注意力鍵和值內存
連續批次傳入請求
使用 CUDA/HIP 圖表快速執行模型
量化：GPTQ、AWQ、INT4、INT8 和 FP8。
優化的 CUDA 內核，包括與 FlashAttention 和 FlashInfer 的整合。
推測性解碼
分塊預填充

效能基準：我們在部落格文章的末尾包含了一個效能基準。它將 vLLM 與其他 LLM 服務引擎（TensorRT-LLM、SGLang 和 LMDeploy）的性能進行了比較。該實作位於 nightly-benchmarks 資料夾下，您可以使用我們的一鍵運行腳本重現此基準。

vLLM 靈活且易於使用：

與流行的 Hugging Face 型號無縫集成
高吞吐量服務與各種解碼演算法，包括平行取樣、波束搜尋等
對分佈式推理的張量並行性和管道並行性支持
流輸出
相容於 OpenAI 的 API 伺服器
支援 NVIDIA GPU、AMD CPU 和 GPU、Intel CPU 和 GPU、PowerPC CPU、TPU 和 AWS Neuron。
前綴緩存支持
多lora支持

vLLM 無縫支援 HuggingFace 上最受歡迎的開源模型，包括：

類似 Transformer 的法學碩士（例如 Llama）
混合專家法學碩士（例如 Mixtral）
嵌入模型（例如 E5-Mistral）
多模式法學碩士（如LLaVA）

在此處查找受支援型號的完整清單。

入門

使用pip或從來源安裝 vLLM：

 pip 安裝 vllm

請造訪我們的文件以了解更多資訊。

安裝
快速入門
支援型號

貢獻

我們歡迎並重視任何貢獻和合作。請查看 CONTRIBUTING.md 以了解如何參與。

贊助商

vLLM 是一個社區專案。我們用於開發和測試的計算資源由以下組織提供支援。感謝您的支持！

a16z
AMD
任意規模
AWS
克魯索雲
資料區塊
深基礎設施
Dropbox
Google雲
拉姆達實驗室
英偉達
複製
羅布樂思
運行Pod
紅杉資本
思凱沃人工智慧
特雷尼
加州大學柏克萊分校
加州大學聖地牙哥分校
真格基金

我們也透過 OpenCollective 設立了官方募款場所。我們計劃使用該基金來支持 vLLM 的開發、維護和採用。

引文

如果您使用 vLLM 進行研究，請引用我們的論文：

 @inproceedings{kwon2023efficient，title={使用PagedAttention實現大型語言模型的高效內存管理}，作者={Woosuk Kwon、Zhuohan Li、Siyuan Zhuang、Ying Shen、Lianmin Cheng、Codyhao Yu、Joseph E. Gonzalez、Hao Zhang、Lianmin Cheng、Codyhao Yu、Joseph E. Gonzalez、Hao Stoica}，書名={ACM SIGOPS 第29 屆作業系統原理研討會論文集}，年份={2023}}