[2024/10/22] 新?有关如何使用 NVIDIA TensorRT-LLM 优化 LLM、使用 Triton 推理服务器部署优化模型、在 Kubernetes 环境中自动缩放 LLM 部署的分步说明。 ?技术深入探讨:➡️链接
[2024/10/07] 使用 NVIDIA 加速库优化 Microsoft Bing 视觉搜索 ➡️ 链接
[2024/09/29] Meta PyTorch + TensorRT v2.4 的人工智能? ⚡TensorRT 10.1 ⚡PyTorch 2.4 ⚡CUDA 12.4 ⚡Python 3.12 ➡️链接
[2024/09/17] NVIDIA TensorRT-LLM Meetup ➡️链接
[2024/09/17] 使用 TensorRT-LLM 加速 Databricks 的 LLM 推理➡️链接
[2024/09/17] TensorRT-LLM @ Baseten ➡️ 链接
[2024/09/04] 使用 BentoML 调整 TensorRT-LLM 以实现最佳服务的最佳实践 ➡️ 链接
[2024/08/20] SDXL 与 #TensorRT 模型优化器⏱️⚡?缓存扩散 ?量化感知训练 ? QLoRA? #Python 3.12➡️链接
[2024/08/13] 使用 #Mamba ⚡ #TensorRT #LLM DIY 代码完成以提高速度? NIM 轻松实现 ☁️ 部署在任何地方 ➡️ 链接
[2024/08/06] 多语言挑战接受了吗? ? #TensorRT #LLM 提升希伯来语、印度尼西亚语和越南语等低资源语言⚡➡️链接
[2024/07/30] 介绍一下? @SliceXAI ELM Turbo ?训练一次 ELM ⚡ #TensorRT #LLM 优化 ☁️ 部署在任何地方 ➡️ 链接
[2024/07/23] @AIatMeta Llama 3.1 405B 在 16K NVIDIA H100 上训练 - 推断是#TensorRT #LLM 优化⚡? 400 tok/s - 每个节点? 37 tok/s - 每个用户? 1节点推理➡️链接
[2024/07/09] 使用 #TensorRT #LLM 推理最大化 @meta #Llama3 多语言性能的清单: ✅ 多语言 ✅ NIM ✅ LoRA 调整适配器➡️ 技术博客
[2024/07/02] 让@MistralAI MoE代币飞起来? ? #Mixtral 8x7B 与 NVIDIA #TensorRT #LLM 在 #H100 上。 ➡️科技博客
[2024/06/24] @upstage.ai 的 Solar-10.7B-instruct 通过 NVIDIA #TensorRT #LLM 进行了增强,已准备好通过我们的 API 目录为您的开发人员项目提供支持?️。 ✨➡️链接
[2024/06/18] 赛米:?稳定扩散3上周下降了? ?️ 使用 #TensorRT INT8 Quantization 加速你的 SD3➡️ 链接
[2024/06/18] 使用 TensorRT 部署 ComfyUI? 这是您的设置指南➡️链接
[2024/06/11] #TensorRT Weight-Stripped Engines ✨ 为专业程序员提供技术深度探索 ✅+99% 压缩 ✅1 组权重 → ** GPU ✅0 性能损失 ✅** 模型…LLM、CNN 等➡️关联
[2024/06/04] #TensorRT 和 GeForce #RTX 解锁 ComfyUI SD 超级英雄的力量?⚡?演示:➡️链接? DIY笔记本:➡️链接
[2024/05/28] #TensorRT ResNet-50 的权重剥离 ✨ ✅+99% 压缩 ✅1 组权重 → ** GPU ✅0 性能损失 ✅** 模型…LLM、CNN 等? ? DIY➡️链接
[2024/05/21] @modal_labs 在 #TensorRT #LLM 上有无服务器 @AIatMeta Llama 3 的代码✨? ? Marvelous 模态手册:无服务器 TensorRT-LLM (LLaMA 3 8B) |模态文档➡️链接
[2024/05/08] NVIDIA TensorRT 模型优化器——#TensorRT 生态系统的最新成员是一个训练后和循环训练模型优化技术库 ✅量化 ✅稀疏 ✅QAT ➡️ 博客
[2024/05/07] 每秒 24,000 个代币?Meta Llama 3 凭借#TensorRT #LLM 起飞?➡️ 链接
[2024/02/06] TRT-LLM 中使用 SOTA 量化技术加速推理
[2024/01/30] 新的 XQA 内核在相同的延迟预算内提供了 2.4 倍的 Llama-70B 吞吐量
[2023/12/04] Falcon-180B 在具有 INT4 AWQ 的单个 H200 GPU 上运行,Llama-70B 比 A100 快 6.7 倍
[2023/11/27] SageMaker LMI 现在支持 TensorRT-LLM - 与之前的版本相比,吞吐量提高了 60%
[2023/11/13] H200 在 Llama2-13B 上达到近 12,000 tok/sec
[2023/10/22] Windows 上的 RAG 使用 TensorRT-LLM 和 LlamaIndex ?
[2023/10/19] 入门指南 - 使用 NVIDIA TensorRT-LLM 优化大型语言模型推理,现已公开
[2023/10/17] 借助适用于 Windows 的 TensorRT-LLM,RTX 上的大型语言模型速度提高了 4 倍
TensorRT-LLM 是一个用于优化大型语言模型 (LLM) 推理的库。它提供最先进的优化,包括自定义注意力内核、飞行批处理、分页 KV 缓存、量化(FP8、INT4 AWQ、INT8 SmoothQuant、++)等,以便在 NVIDIA GPU 上高效执行推理
TensorRT-LLM 提供了一个 Python API,用于将 LLM 构建到优化的 TensorRT 引擎中。它包含 Python(绑定)和 C++ 中的运行时来执行这些 TensorRT 引擎。它还包括一个用于与 NVIDIA Triton 推理服务器集成的后端。使用 TensorRT-LLM 构建的模型可以在从单个 GPU 到具有多个 GPU 的多个节点(使用张量并行和/或管道并行)的各种配置上执行。
TensorRT-LLM 附带了几种预定义的流行模型。通过类似 PyTorch 的 Python API,可以轻松修改和扩展它们以满足自定义需求。有关受支持型号的列表,请参阅支持矩阵。
TensorRT-LLM 构建在 TensorRT 深度学习推理库之上。它利用了 TensorRT 的大部分深度学习优化,并在顶部添加了 LLM 特定的优化,如上所述。 TensorRT 是一个提前编译器;它构建“引擎”,它是包含整个执行图的已编译模型的优化表示。这些引擎针对特定 GPU 架构进行了优化,并且可以进行验证、基准测试和序列化,以便稍后在生产环境中部署。
要开始使用 TensorRT-LLM,请访问我们的文档:
快速入门指南
发行说明
Linux 安装指南
Windows 安装指南
支持的硬件、型号和其他软件
模型动物园(由 TRT-LLM rel 0.9 a9356d4b7610330e89c1010f342a9ac644215c52 生成)