Descarga TensorRT LLM - Descarga del código fuente TensorRT LLM

TensorRT LLM

Otro código fuente

TensorRT-LLM

Descargar

TensorRT-LLM

Una caja de herramientas de TensorRT para la inferencia optimizada de modelos de lenguaje grande

Arquitectura | Resultados | Ejemplos | Documentación

Últimas noticias

[2024/10/22] ¿Nuevo? Instrucciones paso a paso sobre cómo ✅ Optimizar los LLM con NVIDIA TensorRT-LLM, ✅ Implementar los modelos optimizados con Triton Inference Server, ✅ Autoescalar la implementación de LLM en un entorno de Kubernetes. ? Análisis técnico profundo: ➡️ enlace

[07/10/2024] Optimización de la búsqueda visual de Microsoft Bing con bibliotecas aceleradas de NVIDIA ➡️ enlace
[29/09/2024] ¿IA en Meta PyTorch + TensorRT v2.4? ⚡TensorRT 10.1 ⚡PyTorch 2.4 ⚡CUDA 12.4 ⚡Python 3.12 ➡️ enlace
[2024/09/17] Encuentro de NVIDIA TensorRT-LLM ➡️ enlace
[2024/09/17] Acelerando la inferencia de LLM en Databricks con TensorRT-LLM ➡️ enlace
[2024/09/17] TensorRT-LLM @ Baseten ➡️ enlace
[04/09/2024] Mejores prácticas para ajustar TensorRT-LLM para una publicación óptima con BentoML ➡️ enlace
[20/08/2024] SDXL con optimizador de modelos #TensorRT ⏱️⚡? ¿difusión de caché? ¿Entrenamiento consciente de la cuantificación? ¿QLoRA? #Python 3.12 ➡️ enlace
[2024/08/13] ¿Completación de código de bricolaje con #Mamba ⚡ #TensorRT #LLM para velocidad? NIM para facilitar ☁️ implementar en cualquier lugar ➡️ enlace
[2024/08/06] ¿Se acepta el desafío multilingüe? ? #TensorRT #LLM impulsa idiomas de bajos recursos como hebreo, indonesio y vietnamita ⚡➡️ enlace
[2024/07/30] ¿Presentando? @SliceXAI ¿ELM Turbo? entrene ELM una vez ⚡ #TensorRT #LLM optimice ☁️ implemente en cualquier lugar ➡️ enlace
[23/07/2024] @AIatMeta Llama 3.1 405B entrenado en NVIDIA H100 de 16K: ¿la inferencia está optimizada para #TensorRT #LLM ⚡? ¿400 tok/s por nodo? 37 tok/s - por usuario ? Inferencia de 1 nodo ➡️ enlace
[09/07/2024] Lista de verificación para maximizar el rendimiento multilingüe de @meta #Llama3 con inferencia #TensorRT #LLM: ✅ MultiLingual ✅ NIM ✅ Adaptadores sintonizados LoRA➡️ Blog técnico
[2024/07/02] ¿Dejar volar los tokens @MistralAI MoE? ? #Mixtral 8x7B con NVIDIA #TensorRT #LLM en #H100. ➡️ Blog de tecnología

Noticias Anteriores

[24/06/2024] Mejorado con NVIDIA #TensorRT #LLM, el solar-10.7B-instruct de @upstage.ai está listo para impulsar sus proyectos de desarrollador a través de nuestro catálogo de API. ✨➡️ enlace
[2024/06/18] CYMI: ? ¿Stable Diffusion 3 cayó la semana pasada? ?️ Acelera tu SD3 con #TensorRT INT8 Quantization➡️ enlace
[2024/06/18] ¿Implementando ComfyUI con TensorRT? Aquí está su guía de configuración ➡️ enlace
[2024/06/11] #TensorRT Motores sin peso ✨ Análisis técnico profundo para programadores serios ✅+99 % de compresión ✅1 conjunto de pesos → ** GPU ✅0 pérdida de rendimiento ✅** modelos…LLM, CNN, etc.➡️ enlace
[2024/06/04] #TensorRT y GeForce #RTX desbloquean los poderes de superhéroe de ComfyUI SD ?⚡ ? Demostración: ➡️ enlace? Cuaderno de bricolaje: ➡️ enlace
[28/05/2024] #TensorRT eliminación de peso para ResNet-50 ✨ ✅+99% de compresión ✅1 conjunto de pesos → ** GPU ✅0 pérdida de rendimiento ✅** modelos…LLM, CNN, etc. ? Hazlo tú mismo ➡️ enlace
[2024/05/21] @modal_labs tiene los códigos para @AIatMeta Llama 3 sin servidor en #TensorRT #LLM ✨? ? Maravilloso manual modal: TensorRT-LLM sin servidor (LLaMA 3 8B) | Documentos modales ➡️ enlace
[2024/05/08] NVIDIA TensorRT Model Optimizer: el miembro más nuevo del ecosistema #TensorRT es una biblioteca de técnicas de optimización de modelos post-entrenamiento y entrenamiento en el bucle ✅cuantización ✅esparsidad ✅QAT ➡️ blog
[07/05/2024] 24.000 tokens por segundo ?Meta Llama 3 despega con #TensorRT #LLM ?➡️ enlace
[06/02/2024] Acelerar la inferencia con técnicas de cuantificación SOTA en TRT-LLM
[30/01/2024] El nuevo kernel XQA proporciona 2,4 veces más rendimiento de Llama-70B dentro del mismo presupuesto de latencia
[2023/12/04] Falcon-180B en una sola GPU H200 con INT4 AWQ y Llama-70B 6,7 veces más rápido que A100
[2023/11/27] SageMaker LMI ahora es compatible con TensorRT-LLM: mejora el rendimiento en un 60 %, en comparación con la versión anterior
[2023/11/13] H200 alcanza casi 12.000 tok/seg en Llama2-13B
[2023/10/22] ¿RAG en Windows usando TensorRT-LLM y LlamaIndex?
[2023/10/19] Guía de introducción: Optimización de la inferencia en modelos de lenguajes grandes con NVIDIA TensorRT-LLM, ahora disponible públicamente
[2023/10/17] Modelos de lenguaje grandes hasta 4 veces más rápidos en RTX con TensorRT-LLM para Windows

Descripción general de TensorRT-LLM

TensorRT-LLM es una biblioteca para optimizar la inferencia del modelo de lenguaje grande (LLM). Proporciona optimizaciones de última generación, incluidos núcleos de atención personalizados, procesamiento por lotes en vuelo, almacenamiento en caché KV paginado, cuantificación (FP8, INT4 AWQ, INT8 SmoothQuant, ++) y mucho más, para realizar inferencias de manera eficiente en las GPU NVIDIA.

TensorRT-LLM proporciona una API de Python para crear LLM en motores TensorRT optimizados. Contiene tiempos de ejecución en Python (enlaces) y C++ para ejecutar esos motores TensorRT. También incluye un backend para la integración con NVIDIA Triton Inference Server. Los modelos creados con TensorRT-LLM se pueden ejecutar en una amplia gama de configuraciones, desde una sola GPU hasta múltiples nodos con múltiples GPU (usando Tensor Parallelism y/o Pipeline Parallelism).

TensorRT-LLM viene con varios modelos populares predefinidos. Se pueden modificar y ampliar fácilmente para adaptarse a necesidades personalizadas a través de una API de Python similar a PyTorch. Consulte la Matriz de soporte para obtener una lista de modelos compatibles.

TensorRT-LLM está construido sobre la biblioteca TensorRT Deep Learning Inference. Aprovecha gran parte de las optimizaciones de aprendizaje profundo de TensorRT y agrega optimizaciones específicas de LLM además, como se describe anteriormente. TensorRT es un compilador avanzado; construye "Motores" que son representaciones optimizadas del modelo compilado que contiene el gráfico de ejecución completo. Estos motores están optimizados para una arquitectura de GPU específica y pueden validarse, compararse y serializarse para su posterior implementación en un entorno de producción.