vllm下载 - vllm源码下载

vllm

其他源码

0.6.3.post1

下载

简单、快速、廉价的 LLM 为每个人提供服务

|文档|博客|纸|不和谐|推特/X |开发人员 Slack |

vLLM x Snowflake 聚会（太平洋时间 11 月 13 日星期三下午 5:30-8 点）在圣马特奥 Snowflake 总部举行

我们很高兴地宣布今年最后一次面对面的 vLLM 聚会！与 Snowflake AI Research 的 vLLM 开发人员和工程师一起讨论最新的 LLM 推理优化以及您的 2025 年 vLLM 愿望清单！在此注册并成为活动的一部分！

最新消息？

[2024/10] 我们刚刚创建了一个开发人员 slack (slack.vllm.ai)，专注于协调贡献和讨论功能。请随时加入我们！
[2024/10] Ray Summit 2024举办vLLM专场！请在此处找到 vLLM 团队的开场演讲幻灯片。从其他 vLLM 贡献者和用户的演讲中了解更多信息！
[2024/09] 我们与 NVIDIA 举办了第六次 vLLM 聚会！请在此处查找聚会幻灯片。
[2024/07] 我们与 AWS 举办了第五次 vLLM 聚会！请在此处查找聚会幻灯片。
[2024/07] vLLM与Meta合作，正式支持具有FP8量化和管道并行性的Llama 3.1！请在此处查看我们的博客文章。
[2024/06] 我们与 Cloudflare 和 BentoML 举办了第四次 vLLM 聚会！请在此处查找聚会幻灯片。
[2024/04] 我们与 Roblox 举办了第三次 vLLM 聚会！请在此处查找聚会幻灯片。
[2024/01] 我们与 IBM 举办了第二次 vLLM 聚会！请在此处查找聚会幻灯片。
[2023/10] 我们与 a16z 举办了第一次 vLLM 聚会！请在此处查找聚会幻灯片。
[2023/08] 我们衷心感谢Andreessen Horowitz (a16z)提供慷慨资助支持vLLM的开源开发和研究。
[2023/06] vLLM正式发布！自 4 月中旬以来，FastChat-vLLM 集成已为 LMSYS Vicuna 和 Chatbot Arena 提供支持。查看我们的博客文章。

关于

vLLM 是一个快速且易于使用的 LLM 推理和服务库。

vLLM 的速度很快：

最先进的服务吞吐量
使用PagedAttention高效管理注意力键和值内存
连续批处理传入请求
使用 CUDA/HIP 图快速执行模型
量化：GPTQ、AWQ、INT4、INT8 和 FP8。
优化的 CUDA 内核，包括与 FlashAttention 和 FlashInfer 的集成。
推测性解码
分块预填充

性能基准：我们在博客文章的末尾包含了一个性能基准。它将 vLLM 与其他 LLM 服务引擎（TensorRT-LLM、SGLang 和 LMDeploy）的性能进行了比较。该实现位于 nightly-benchmarks 文件夹下，您可以使用我们的一键运行脚本重现此基准。

vLLM 灵活且易于使用：

与流行的 Hugging Face 模型无缝集成
高吞吐量服务与各种解码算法，包括并行采样、波束搜索等
对分布式推理的张量并行性和管道并行性支持
流输出
兼容 OpenAI 的 API 服务器
支持 NVIDIA GPU、AMD CPU 和 GPU、Intel CPU 和 GPU、PowerPC CPU、TPU 和 AWS Neuron。
前缀缓存支持
多lora支持

vLLM 无缝支持 HuggingFace 上最流行的开源模型，包括：

类似 Transformer 的法学硕士（例如 Llama）
混合专家法学硕士（例如 Mixtral）
嵌入模型（例如 E5-Mistral）
多模式法学硕士（例如LLaVA）

在此处查找受支持型号的完整列表。

入门

使用pip或从源安装 vLLM：

 pip 安装 vllm

请访问我们的文档以了解更多信息。

安装
快速入门
支持型号

贡献

我们欢迎并重视任何贡献和合作。请查看 CONTRIBUTING.md 了解如何参与。

赞助商

vLLM 是一个社区项目。我们用于开发和测试的计算资源由以下组织提供支持。感谢您的支持！

a16z
AMD
任意规模
AWS
克鲁索云
数据块
深基础设施
Dropbox
谷歌云
拉姆达实验室
英伟达
复制
罗布乐思
运行Pod
红杉资本
思凯沃人工智能
特雷尼
加州大学伯克利分校
加州大学圣地亚哥分校
真格基金

我们还通过 OpenCollective 设立了官方筹款场所。我们计划使用该基金来支持 vLLM 的开发、维护和采用。

引文

如果您使用 vLLM 进行研究，请引用我们的论文：

 @inproceedings{kwon2023efficient，title={使用PagedAttention实现大型语言模型的高效内存管理}，作者={Woosuk Kwon、Zhuohan Li、Siyuan Zhuang、Ying Shen、Lianmin Cheng、Codyhao Yu、Joseph E. Gonzalez、Hao Zhang 和Ion Stoica}，书名={ACM SIGOPS 第 29 届操作研讨会论文集系统原理}，年份={2023}}