[2024/10/22] 新?有關如何使用 NVIDIA TensorRT-LLM 最佳化 LLM、使用 Triton 推理伺服器部署最佳化模型、在 Kubernetes 環境中自動縮放 LLM 部署的逐步說明。 ?技術深入探討:➡️鏈接
[2024/10/07] 使用 NVIDIA 加速庫優化 Microsoft Bing 視覺搜尋 ➡️ 鏈接
[2024/09/29] Meta PyTorch + TensorRT v2.4 的人工智慧? ⚡TensorRT 10.1 ⚡PyTorch 2.4 ⚡CUDA 12.4 ⚡Python 3.12 ➡️鏈接
[2024/09/17] NVIDIA TensorRT-LLM Meetup ➡️鏈接
[2024/09/17] 使用 TensorRT-LLM 加速 Databricks 的 LLM 推理➡️鏈接
[2024/09/17] TensorRT-LLM @ Baseten ➡️ 鏈接
[2024/09/04] 使用 BentoML 調整 TensorRT-LLM 以實現最佳服務的最佳實踐 ➡️ 鏈接
[2024/08/20] SDXL 與 #TensorRT 模型優化器⏱️⚡?緩存擴散 ?量化感知訓練 ? QLoRA? #Python 3.12➡️鏈接
[2024/08/13] 使用 #Mamba ⚡ #TensorRT #LLM DIY 代碼完成以提高速度? NIM 輕鬆實現 ☁️ 部署在任何地方 ➡️ 鏈接
[2024/08/06] 多語言挑戰接受了嗎? ? #TensorRT #LLM 提升希伯來語、印尼語和越南語等低資源語言⚡➡️鏈接
[2024/07/30] 介紹一下? @SliceXAI ELM Turbo ?訓練一次 ELM ⚡ #TensorRT #LLM 優化 ☁️ 部署在任何地方 ➡️ 鏈接
[2024/07/23] @AIatMeta Llama 3.1 405B 在 16K NVIDIA H100 上訓練 - 推斷是#TensorRT #LLM 優化⚡? 400 tok/s - 每個節點? 37 tok/s - 每個使用者? 1節點推理➡️鏈接
[2024/07/09] 使用 #TensorRT #LLM 推理最大化 @meta #Llama3 多語言性能的清單: ✅ 多語言 ✅ NIM ✅ LoRA 調整適配器➡️ 技術博客
[2024/07/02] 讓@MistralAI MoE代幣飛起來? ? #Mixtral 8x7B 與 NVIDIA #TensorRT #LLM 在 #H100 上。 ➡️科技博客
[2024/06/24] @upstage.ai 的 Solar-10.7B-instruct 透過 NVIDIA #TensorRT #LLM 進行了增強,已準備好透過我們的 API 目錄為您的開發人員專案提供支援? ✨➡️鏈接
[2024/06/18] 賽米:?穩定擴散3上週下降了? ?️ 使用 #TensorRT INT8 Quantization 加速你的 SD3➡️ 鏈接
[2024/06/18] 使用 TensorRT 部署 ComfyUI? 這是您的設定指南➡️鏈接
[2024/06/11] #TensorRT Weight-Stripped Engines ✨ 提供專業程式設計師技術深度探索 ✅+99% 壓縮 ✅1 群組權重 → ** GPU ✅0 效能損失 ✅** 模型…LLM、CNN 等➡️關聯
[2024/06/04] #TensorRT 和 GeForce #RTX 解鎖 ComfyUI SD 超級英雄的力量?演示:➡️連結? DIY筆記本:➡️鏈接
[2024/05/28] #TensorRT ResNet-50 的權重剝離 ✨ ✅+99% 壓縮 ✅1 組權重 → ** GPU ✅0 效能損失 ✅** 模型…LLM、CNN 等? ? DIY➡️鏈接
[2024/05/21] @modal_labs 在 #TensorRT #LLM 上有無伺服器 @AIatMeta Llama 3 的程式碼✨? ? Marvelous 模態手冊:無伺服器 TensorRT-LLM (LLaMA 3 8B) |模態文檔➡️鏈接
[2024/05/08] NVIDIA TensorRT 模型優化器—#TensorRT 生態系統的最新成員是一個訓練後和循環訓練模型優化技術庫 ✅量化 ✅稀疏 ✅QAT ➡️ 博客
[2024/05/07] 每秒 24,000 個代幣?
[2024/02/06] TRT-LLM 中使用 SOTA 量化技術加速推理
[2024/01/30] 新的 XQA 核心在相同的延遲預算內提供了 2.4 倍的 Llama-70B 吞吐量
[2023/12/04] Falcon-180B 在具有 INT4 AWQ 的單一 H200 GPU 上運行,Llama-70B 比 A100 快 6.7 倍
[2023/11/27] SageMaker LMI 現在支援 TensorRT-LLM - 與先前的版本相比,吞吐量提高了 60%
[2023/11/13] H200 在 Llama2-13B 上達到近 12,000 tok/sec
[2023/10/22] Windows 上的 RAG 使用 TensorRT-LLM 和 LlamaIndex ?
[2023/10/19] 入門指南 - 使用 NVIDIA TensorRT-LLM 優化大型語言模型推理,現已公開
[2023/10/17] 借助適用於 Windows 的 TensorRT-LLM,RTX 上的大型語言模型速度提高了 4 倍
TensorRT-LLM 是一個用於最佳化大型語言模型 (LLM) 推理的函式庫。它提供最先進的最佳化,包括自訂注意力核心、飛行批次、分頁 KV 快取、量化(FP8、INT4 AWQ、INT8 SmoothQuant、++)等,以便在 NVIDIA GPU 上有效執行推理
TensorRT-LLM 提供了一個 Python API,用於將 LLM 建置到最佳化的 TensorRT 引擎中。它包含 Python(綁定)和 C++ 中的運行時來執行這些 TensorRT 引擎。它還包括一個用於與 NVIDIA Triton 推理伺服器整合的後端。使用 TensorRT-LLM 建立的模型可以在從單一 GPU 到具有多個 GPU 的多個節點(使用張量並行和/或管道並行)的各種配置上執行。
TensorRT-LLM 附帶了幾種預先定義的流行模型。透過類似 PyTorch 的 Python API,可以輕鬆修改和擴展它們以滿足自訂需求。有關支援型號的列表,請參閱支援矩陣。
TensorRT-LLM 建構在 TensorRT 深度學習推理庫之上。它利用了 TensorRT 的大部分深度學習優化,並在頂部添加了 LLM 特定的優化,如上所述。 TensorRT 是提前編譯器;它建構“引擎”,它是包含整個執行圖的已編譯模型的最佳化表示。這些引擎針對特定 GPU 架構進行了最佳化,並且可以進行驗證、基準測試和序列化,以便稍後在生產環境中部署。
若要開始使用 TensorRT-LLM,請造訪我們的文件:
快速入門指南
發行說明
Linux 安裝指南
Windows 安裝指南
支援的硬體、型號和其他軟體
模型動物園(由 TRT-LLM rel 0.9 a9356d4b7610330e89c1010f342a9ac644215c52 產生)