[2024/10/22] 新しい? ✅ NVIDIA TensorRT-LLM を使用して LLM を最適化する、✅ Triton Inference Server を使用して最適化されたモデルをデプロイする、✅ Kubernetes 環境での LLM のデプロイメントを自動スケールする方法に関するステップバイステップの手順。 ?技術的な詳細: ➡️ リンク
[2024/10/07] NVIDIA Accelerated Libraries による Microsoft Bing Visual Search の最適化 ➡️ リンク
[2024/09/29] Meta PyTorch + TensorRT v2.4 で AI ? ⚡TensorRT 10.1 ⚡PyTorch 2.4 ⚡CUDA 12.4 ⚡Python 3.12 ➡️ リンク
[2024/09/17] NVIDIA TensorRT-LLM Meetup ➡️リンク
[2024/09/17] TensorRT-LLM を使用した Databricks での LLM 推論の高速化 ➡️ リンク
[2024/09/17] TensorRT-LLM @ Baseten ➡️リンク
[2024/09/04] BentoML で最適なサービスを提供するために TensorRT-LLM をチューニングするためのベスト プラクティス ➡️ リンク
[2024/08/20] SDXL と #TensorRT モデル オプティマイザー ⏱️⚡ ?キャッシュの拡散?量子化を意識したトレーニング? QLoRA? #Python 3.12 ➡️ リンク
[2024/08/13] #Mamba で DIY コード補完 ⚡ #TensorRT #LLM で高速化? NIM で簡単 ☁️ どこにでも導入 ➡️ リンク
[2024/08/06] 多言語チャレンジ受付中? ? #TensorRT #LLM はヘブライ語、インドネシア語、ベトナム語などの低リソース言語を強化します ⚡➡️ リンク
[2024/07/30] 紹介? @SliceXAI ELMターボ? ELM を 1 回トレーニングする ⚡ #TensorRT #LLM 最適化する ☁️ どこにでもデプロイする ➡️ リンク
[2024/07/23] @AIatMeta Llama 3.1 405B は 16K NVIDIA H100 でトレーニングされました - 推論は #TensorRT #LLM が最適化されています ⚡ ? 400 トーク/秒 - ノードあたり? 37 トーク/秒 - ユーザーあたり? 1ノード推論 ➡️リンク
[2024/07/09] #TensorRT #LLM 推論を使用して @meta #Llama3 の多言語パフォーマンスを最大化するためのチェックリスト: ✅ 多言語 ✅ NIM ✅ LoRA チューニング アダプター➡️ 技術ブログ
[2024/07/02] @MistralAI MoEトークンを飛ばしましょう? ? #H100 上の NVIDIA #TensorRT #LLM を使用した #Mixtral 8x7B。 ➡️技術ブログ
[2024/06/24] NVIDIA #TensorRT #LLM で強化された @upstage.ai の Solar-10.7B-instruct は、API カタログを通じて開発者プロジェクトを強化する準備ができています ?️。 ✨➡️リンク
[2024/06/18] CYMI:? Stable Diffusion 3 は先週ドロップされましたか? ➡️#TensorRT INT8 Quantization➡️ リンクを使用して SD3 を高速化します
[2024/06/18] TensorRT で ComfyUI をデプロイしますか? セットアップガイドはこちら ➡️ リンク
[2024/06/11] #TensorRT ウェイトストリップ エンジン ✨本格的なプログラマー向けの技術詳細 ✅+99% 圧縮 ✅1 セットのウェイト → ** GPU ✅ パフォーマンス損失 0 ✅** モデル…LLM、CNN など➡️リンク
[2024/06/04] #TensorRT と GeForce #RTX が ComfyUI SD スーパーヒーローのパワーを解放します ?⚡ ?デモ: ➡️ リンク ? DIY ノート: ➡️ リンク
[2024/05/28] ResNet-50 の #TensorRT ウェイト ストリッピング ✨ ✅+99% 圧縮 ✅ 1 セットのウェイト → ** GPU ✅ パフォーマンス損失 0 ✅** モデル…LLM、CNN など ? ? DIY ➡️リンク
[2024/05/21] @modal_labs のサーバーレス @AIatMeta Llama 3 のコードが #TensorRT #LLM にあります ✨? ? Marvelous モーダル マニュアル: サーバーレス TensorRT-LLM (LLaMA 3 8B) |モーダルドキュメント ➡️ リンク
[2024/05/08] NVIDIA TensorRT モデル オプティマイザー -- #TensorRT エコシステムの最新メンバーは、トレーニング後およびループ内トレーニングのモデル最適化手法のライブラリです ✅量子化 ✅スパース性 ✅QAT ➡️ ブログ
[2024/05/07] 1 秒あたり 24,000 トークン ?Meta Llama 3 が #TensorRT #LLM で離陸 ?➡️ リンク
[2024/02/06] TRT-LLM の SOTA 量子化技術による推論の高速化
[2024/01/30] 新しい XQA カーネルは、同じレイテンシー バジェット内で 2.4 倍の Llama-70B スループットを提供します
[2023/12/04] INT4 AWQ を備えた単一の H200 GPU 上の Falcon-180B、および A100 よりも 6.7 倍高速な Llama-70B
[2023/11/27] SageMaker LMI が TensorRT-LLM をサポート - 以前のバージョンと比較してスループットが 60% 向上
[2023/11/13] H200 は Llama2-13B でほぼ 12,000 トーク/秒を達成
[2023/10/22] TensorRT-LLM と LlamaIndex を使用して Windows 上で RAG を実行しますか?
[2023/10/19] スタートガイド - NVIDIA TensorRT-LLM を使用した大規模言語モデルの推論の最適化、公開開始
[2023/10/17] Windows 用 TensorRT-LLM を使用すると、RTX 上で大規模言語モデルが最大 4 倍高速になります
TensorRT-LLM は、Large Language Model (LLM) 推論を最適化するためのライブラリです。カスタム アテンション カーネル、インフライト バッチ処理、ページ化された KV キャッシュ、量子化 (FP8、INT4 AWQ、INT8 SmoothQuant、++) などを含む最先端の最適化を提供し、NVIDIA GPU で推論を効率的に実行します。
TensorRT-LLM は、最適化された TensorRT エンジンに LLM を構築するための Python API を提供します。これらの TensorRT エンジンを実行するための Python (バインディング) と C++ のランタイムが含まれています。また、NVIDIA Triton Inference Server と統合するためのバックエンドも含まれています。 TensorRT-LLM で構築されたモデルは、単一の GPU から複数の GPU を備えた複数のノード (Tensor 並列処理および/またはパイプライン並列処理を使用) までの幅広い構成で実行できます。
TensorRT-LLM には、事前定義されたいくつかの人気のあるモデルが付属しています。これらは、PyTorch のような Python API を介してカスタム ニーズに合わせて簡単に変更および拡張できます。サポートされているモデルのリストについては、サポート マトリックスを参照してください。
TensorRT-LLM は、TensorRT 深層学習推論ライブラリの上に構築されています。上で説明したように、TensorRT の深層学習最適化の多くを活用し、LLM 固有の最適化をその上に追加します。 TensorRT は、事前のコンパイラです。実行グラフ全体を含むコンパイル済みモデルの最適化された表現である「エンジン」を構築します。これらのエンジンは特定の GPU アーキテクチャ向けに最適化されており、後で運用環境に導入するために検証、ベンチマーク、シリアル化を行うことができます。
TensorRT-LLM の使用を開始するには、次のドキュメントにアクセスしてください。
クイックスタートガイド
リリースノート
Linux 用インストールガイド
Windows 用インストールガイド
サポートされているハードウェア、モデル、およびその他のソフトウェア
モデル動物園 (TRT-LLM リリース 0.9 a9356d4b7610330e89c1010f342a9ac644215c52 によって生成)