[22.10.2024] Neu? Schritt-für-Schritt-Anleitung zum ✅ Optimieren von LLMs mit NVIDIA TensorRT-LLM, ✅ Bereitstellen der optimierten Modelle mit Triton Inference Server, ✅ Autoscale LLMs-Bereitstellung in einer Kubernetes-Umgebung. ? Technischer Deep Dive: ➡️ Link
[07.10.2024] Optimieren der visuellen Suche von Microsoft Bing mit NVIDIA Accelerated Libraries ➡️ Link
[29.09.2024] KI bei Meta PyTorch + TensorRT v2.4? ⚡TensorRT 10.1 ⚡PyTorch 2.4 ⚡CUDA 12.4 ⚡Python 3.12 ➡️ Link
[17.09.2024] NVIDIA TensorRT-LLM Meetup ➡️ Link
[17.09.2024] Beschleunigung der LLM-Inferenz bei Databricks mit TensorRT-LLM ➡️ Link
[17.09.2024] TensorRT-LLM @ Baseten ➡️ Link
[04.09.2024] Best Practices für die Optimierung von TensorRT-LLM für optimale Bereitstellung mit BentoML ➡️ Link
[20.08.2024] SDXL mit #TensorRT Model Optimizer ⏱️⚡ ? Cache-Diffusion? Quantisierungsbewusstes Training? QLoRA ? #Python 3.12 ➡️ Link
[13.08.2024] DIY-Code-Vervollständigung mit #Mamba ⚡ #TensorRT #LLM für Geschwindigkeit? NIM zur Vereinfachung ☁️ überall einsetzbar ➡️ Link
[06.08.2024] Mehrsprachige Herausforderung angenommen? ? #TensorRT #LLM fördert ressourcenarme Sprachen wie Hebräisch, Indonesisch und Vietnamesisch ⚡➡️ Link
[30.07.2024] Wir stellen vor? @SliceXAI ELM Turbo ? ELM einmal trainieren ⚡ #TensorRT #LLM optimieren ☁️ überall bereitstellen ➡️ Link
[23.07.2024] @AIatMeta Llama 3.1 405B trainiert auf 16K NVIDIA H100s – Inferenz ist #TensorRT #LLM optimiert ⚡ ? 400 Token/s – pro Knoten? 37 Token/s – pro Benutzer? 1-Knoten-Inferenz ➡️ Link
[09.07.2024] Checkliste zur Maximierung der mehrsprachigen Leistung von @meta #Llama3 mit #TensorRT #LLM-Inferenz: ✅ MultiLingual ✅ NIM ✅ LoRA-abgestimmte Adapter➡️ Tech-Blog
[02.07.2024] Die MoE-Token von @MistralAI fliegen lassen? ? #Mixtral 8x7B mit NVIDIA #TensorRT #LLM auf #H100. ➡️ Tech-Blog
[24.06.2024] Erweitert mit NVIDIA #TensorRT #LLM ist solar-10.7B-instruct von @upstage.ai bereit, Ihre Entwicklerprojekte über unseren API-Katalog zu unterstützen ?️. ✨➡️ Link
[18.06.2024] CYMI: ? Stable Diffusion 3 wurde letzte Woche veröffentlicht? ?️ Beschleunigen Sie Ihr SD3 mit dem Link #TensorRT INT8 Quantization➡️
[18.06.2024] ComfyUI mit TensorRT bereitstellen? Hier ist Ihr Setup-Guide ➡️ Link
[11.06.2024] #TensorRT Weight-Stripped Engines ✨ Technischer Deep Dive für ernsthafte Programmierer ✅+99 % Komprimierung ✅1 Satz Gewichte → ** GPUs ✅0 Leistungsverlust ✅** Modelle … LLM, CNN usw.➡️ Link
[04.06.2024] #TensorRT und GeForce #RTX schalten ComfyUI SD-Superheldenkräfte frei ?⚡ ? Demo: ➡️ Link ? DIY-Notizbuch: ➡️ Link
[28.05.2024] #TensorRT-Gewichtsentfernung für ResNet-50 ✨ ✅+99 % Komprimierung ✅1 Satz Gewichte → ** GPUs ✅0 Leistungsverlust ✅** Modelle … LLM, CNN usw.? ? DIY ➡️ Link
[21.05.2024] @modal_labs hat die Codes für serverloses @AIatMeta Llama 3 auf #TensorRT #LLM ✨? ? Marvelous Modal Manual: Serverless TensorRT-LLM (LLaMA 3 8B) | Modale Dokumente ➡️ Link
[08.05.2024] NVIDIA TensorRT Model Optimizer – das neueste Mitglied des #TensorRT-Ökosystems ist eine Bibliothek von Post-Training- und Training-in-the-Loop-Modelloptimierungstechniken ✅Quantisierung ✅Sparsity ✅QAT ➡️ Blog
[07.05.2024] 24.000 Token pro Sekunde ?Meta Llama 3 startet mit #TensorRT #LLM ?➡️ Link
[06.02.2024] Beschleunigen Sie die Inferenz mit SOTA-Quantisierungstechniken in TRT-LLM
[30.01.2024] Der neue XQA-Kernel bietet 2,4-mal mehr Llama-70B-Durchsatz bei gleichem Latenzbudget
[04.12.2023] Falcon-180B auf einer einzelnen H200-GPU mit INT4 AWQ und 6,7-mal schnellerer Llama-70B gegenüber A100
[27.11.2023] SageMaker LMI unterstützt jetzt TensorRT-LLM – verbessert den Durchsatz um 60 % im Vergleich zur Vorgängerversion
[13.11.2023] H200 erreicht auf Llama2-13B fast 12.000 Token/Sek
[22.10.2023] RAG unter Windows mit TensorRT-LLM und LlamaIndex?
[19.10.2023] Erste Schritte – Optimierung der Inferenz auf großen Sprachmodellen mit NVIDIA TensorRT-LLM, jetzt öffentlich verfügbar
[17.10.2023] Große Sprachmodelle bis zu 4x schneller auf RTX mit TensorRT-LLM für Windows
TensorRT-LLM ist eine Bibliothek zur Optimierung der Large Language Model (LLM)-Inferenz. Es bietet hochmoderne Optimierungen, einschließlich benutzerdefinierter Aufmerksamkeitskerne, Inflight-Batching, ausgelagertes KV-Caching, Quantisierung (FP8, INT4 AWQ, INT8 SmoothQuant, ++) und vieles mehr, um Inferenz effizient auf NVIDIA-GPUs durchzuführen
TensorRT-LLM bietet eine Python-API zum Einbau von LLMs in optimierte TensorRT-Engines. Es enthält Laufzeiten in Python (Bindungen) und C++ zum Ausführen dieser TensorRT-Engines. Es enthält auch ein Backend für die Integration mit dem NVIDIA Triton Inference Server. Mit TensorRT-LLM erstellte Modelle können auf einer Vielzahl von Konfigurationen ausgeführt werden, von einer einzelnen GPU bis hin zu mehreren Knoten mit mehreren GPUs (unter Verwendung von Tensor-Parallelität und/oder Pipeline-Parallelität).
TensorRT-LLM wird mit mehreren vordefinierten gängigen Modellen geliefert. Sie können über eine PyTorch-ähnliche Python-API problemlos an individuelle Anforderungen angepasst und erweitert werden. Eine Liste der unterstützten Modelle finden Sie in der Support-Matrix.
TensorRT-LLM basiert auf der TensorRT Deep Learning Inference-Bibliothek. Es nutzt einen Großteil der Deep-Learning-Optimierungen von TensorRT und fügt darüber hinaus LLM-spezifische Optimierungen hinzu, wie oben beschrieben. TensorRT ist ein zeitgemäßer Compiler; Es werden „Engines“ erstellt, bei denen es sich um optimierte Darstellungen des kompilierten Modells handelt, die den gesamten Ausführungsgraphen enthalten. Diese Engines sind für eine bestimmte GPU-Architektur optimiert und können für den späteren Einsatz in einer Produktionsumgebung validiert, einem Benchmarking unterzogen und serialisiert werden.
Um mit TensorRT-LLM zu beginnen, besuchen Sie unsere Dokumentation:
Kurzanleitung
Versionshinweise
Installationsanleitung für Linux
Installationsanleitung für Windows
Unterstützte Hardware, Modelle und andere Software
Modellzoo (generiert von TRT-LLM rel 0.9 a9356d4b7610330e89c1010f342a9ac644215c52)