Téléchargement TensorRT LLM - Téléchargement du code source TensorRT LLM

TensorRT LLM

Autre code source

TensorRT-LLM

Télécharger

TensorRT-LLM

Une boîte à outils TensorRT pour une inférence optimisée de grands modèles de langage

Architecture | Résultats | Exemples | Documentation

Dernières nouvelles

[2024/10/22] Nouveau ? Instructions étape par étape sur la façon de ✅ optimiser les LLM avec NVIDIA TensorRT-LLM, ✅ déployer les modèles optimisés avec Triton Inference Server, ✅ mettre à l'échelle automatiquement le déploiement des LLM dans un environnement Kubernetes. ? Plongée technique approfondie : ➡️ lien

[2024/10/07] Optimisation de la recherche visuelle Microsoft Bing avec les bibliothèques accélérées NVIDIA ➡️ lien
[2024/09/29] L'IA chez Meta PyTorch + TensorRT v2.4 ? ⚡TensorRT 10.1 ⚡PyTorch 2.4 ⚡CUDA 12.4 ⚡Python 3.12 ➡️ lien
[2024/09/17] Meetup NVIDIA TensorRT-LLM ➡️ lien
[2024/09/17] Accélération de l'inférence LLM chez Databricks avec TensorRT-LLM ➡️ lien
[2024/09/17] TensorRT-LLM @ Baseten ➡️ lien
[2024/09/04] Meilleures pratiques pour régler TensorRT-LLM pour un service optimal avec BentoML ➡️ lien
[20/08/2024] SDXL avec #TensorRT Model Optimizer ⏱️⚡ ? diffusion du cache ? formation sensible à la quantification ? QLoRA ? #Python 3.12 ➡️ lien
[2024/08/13] Complétion du code DIY avec #Mamba ⚡ #TensorRT #LLM pour la vitesse ? NIM pour faciliter ☁️ déployer n'importe où ➡️ lien
[2024/08/06] Défi multilingue accepté ? ? #TensorRT #LLM stimule les langues à faibles ressources comme l'hébreu, l'indonésien et le vietnamien ⚡➡️ lien
[30/07/2024] Présentation ? @SliceXAI ELM Turbo ? former ELM une fois ⚡ #TensorRT #LLM optimiser ☁️ déployer n'importe où ➡️ lien
[2024/07/23] @AIatMeta Llama 3.1 405B formé sur des NVIDIA H100 16K - l'inférence est optimisée #TensorRT #LLM ⚡ ? 400 tok/s - par nœud ? 37 tok/s - par utilisateur ? 1 inférence de nœud ➡️ lien
[2024/07/09] Liste de contrôle pour maximiser les performances multilingues de @meta #Llama3 avec l'inférence #TensorRT #LLM : ✅ Multilingue ✅ NIM ✅ Adaptateurs optimisés LoRA➡️ Blog technique
[02/07/2024] Laisser voler les tokens @MistralAI MoE ? ? #Mixtral 8x7B avec NVIDIA #TensorRT #LLM sur #H100. ➡️Blog technique

Actualités précédentes

[2024/06/24] Amélioré avec NVIDIA #TensorRT #LLM, l'instruction solar-10.7B de @upstage.ai est prête à alimenter vos projets de développement via notre catalogue d'API ?️. ✨➡️ lien
[2024/06/18] CYMI : ? Stable Diffusion 3 est sorti la semaine dernière ? ?️ Accélérez votre SD3 avec la quantification #TensorRT INT8➡️ lien
[2024/06/18] Déployer ComfyUI avec TensorRT ? Voici votre guide de configuration ➡️ lien
[2024/06/11] #TensorRT Moteurs allégés ✨ Plongée technique approfondie pour les codeurs sérieux ✅+99 % de compression ✅1 jeu de poids → ** GPU ✅0 perte de performances ✅** modèles…LLM, CNN, etc.➡️ lien
[04/06/2024] #TensorRT et GeForce #RTX débloquent les pouvoirs de super-héros ComfyUI SD ?⚡ ? Démo : ➡️ lien ? Carnet DIY : ➡️ lien
[2024/05/28] Suppression de poids #TensorRT pour ResNet-50 ✨ ✅+99% de compression ✅1 jeu de poids → ** GPU ✅0 perte de performances ✅** modèles…LLM, CNN, etc ? ? Lien DIY ➡️
[2024/05/21] @modal_labs a les codes pour @AIatMeta Llama 3 sans serveur sur #TensorRT #LLM ✨ ? ? Merveilleux manuel modal : TensorRT-LLM sans serveur (LLaMA 3 8B) | Documents modaux ➡️ lien
[2024/05/08] NVIDIA TensorRT Model Optimizer -- le plus récent membre de l'écosystème #TensorRT est une bibliothèque de techniques d'optimisation de modèles post-formation et formation en boucle ✅quantisation ✅sparsité ✅QAT ➡️ blog
[07/05/2024] 24 000 tokens par seconde ?Meta Llama 3 décolle avec #TensorRT #LLM ?➡️ lien
[2024/02/06] Accélérez l'inférence avec les techniques de quantification SOTA dans TRT-LLM
[2024/01/30] Le nouveau noyau XQA offre un débit Llama-70B 2,4 fois plus élevé avec le même budget de latence
[04/12/2023] Falcon-180B sur un seul GPU H200 avec INT4 AWQ et Llama-70B 6,7 fois plus rapide que l'A100
[2023/11/27] SageMaker LMI prend désormais en charge TensorRT-LLM - améliore le débit de 60 % par rapport à la version précédente
[2023/11/13] H200 atteint près de 12 000 tok/sec sur Llama2-13B
[2023/10/22] RAG sur Windows en utilisant TensorRT-LLM et LlamaIndex ?
[2023/10/19] Guide de démarrage - Optimisation de l'inférence sur des modèles de langage volumineux avec NVIDIA TensorRT-LLM, désormais disponible publiquement
[2023/10/17] Modèles de langages volumineux jusqu'à 4 fois plus rapides sur RTX avec TensorRT-LLM pour Windows

Présentation de TensorRT-LLM

TensorRT-LLM est une bibliothèque permettant d'optimiser l'inférence du Large Language Model (LLM). Il fournit des optimisations de pointe, notamment des noyaux d'attention personnalisés, le traitement par lots en vol, la mise en cache KV paginée, la quantification (FP8, INT4 AWQ, INT8 SmoothQuant, ++) et bien plus encore, pour effectuer des inférences efficacement sur les GPU NVIDIA.

TensorRT-LLM fournit une API Python pour créer des LLM dans des moteurs TensorRT optimisés. Il contient des environnements d'exécution en Python (liaisons) et C++ pour exécuter ces moteurs TensorRT. Il comprend également un backend pour l'intégration avec le serveur d'inférence NVIDIA Triton. Les modèles créés avec TensorRT-LLM peuvent être exécutés sur une large gamme de configurations, depuis un seul GPU jusqu'à plusieurs nœuds avec plusieurs GPU (en utilisant le parallélisme tensoriel et/ou le parallélisme pipeline).

TensorRT-LLM est livré avec plusieurs modèles populaires prédéfinis. Ils peuvent facilement être modifiés et étendus pour répondre à des besoins personnalisés via une API Python de type PyTorch. Reportez-vous à la matrice de support pour une liste des modèles pris en charge.

TensorRT-LLM est construit sur la bibliothèque TensorRT Deep Learning Inference. Il exploite une grande partie des optimisations d'apprentissage en profondeur de TensorRT et ajoute des optimisations spécifiques au LLM, comme décrit ci-dessus. TensorRT est un compilateur avancé ; il construit des « moteurs » qui sont des représentations optimisées du modèle compilé contenant l'intégralité du graphe d'exécution. Ces moteurs sont optimisés pour une architecture GPU spécifique et peuvent être validés, comparés et sérialisés pour un déploiement ultérieur dans un environnement de production.