[2024/10/22] Novo? Instruções passo a passo sobre como ✅ Otimizar LLMs com NVIDIA TensorRT-LLM, ✅ Implantar os modelos otimizados com Triton Inference Server, ✅ Dimensionar automaticamente a implantação de LLMs em um ambiente Kubernetes. ? Aprofundamento técnico: ➡️ link
[2024/10/07] Otimizando a pesquisa visual do Microsoft Bing com bibliotecas aceleradas NVIDIA ➡️ link
[2024/09/29] IA em Meta PyTorch + TensorRT v2.4? ⚡TensorRT 10.1 ⚡PyTorch 2.4 ⚡CUDA 12.4 ⚡Python 3.12 ➡️ link
[2024/09/17] Encontro NVIDIA TensorRT-LLM ➡️ link
[2024/09/17] Acelerando a inferência LLM em Databricks com TensorRT-LLM ➡️ link
[2024/09/17] TensorRT-LLM @ Baseten ➡️ link
[2024/09/04] Melhores práticas para ajustar o TensorRT-LLM para um serviço ideal com BentoML ➡️ link
[2024/08/20] SDXL com #TensorRT Model Optimizer ⏱️⚡ ? difusão de cache? treinamento consciente de quantização? QLoRA? #Python 3.12 ➡️ link
[2024/08/13] Conclusão de código DIY com #Mamba ⚡ #TensorRT #LLM para velocidade? NIM para facilitar ☁️ implante em qualquer lugar ➡️ link
[2024/08/06] Desafio multilíngue aceito? ? #TensorRT #LLM impulsiona idiomas com poucos recursos, como hebraico, indonésio e vietnamita ⚡➡️ link
[2024/07/30] Apresentando? @SliceXAI ELM Turbo? treine ELM uma vez ⚡ #TensorRT #LLM otimize ☁️ implante em qualquer lugar ➡️ link
[2024/07/23] @AIatMeta Llama 3.1 405B treinado em 16K NVIDIA H100s - a inferência é #TensorRT #LLM otimizada ⚡? 400 tok/s - por nó? 37 tok/s - por usuário? Inferência de 1 nó ➡️ link
[2024/07/09] Lista de verificação para maximizar o desempenho multilíngue de @meta # Llama3 com inferência #TensorRT #LLM: ✅ Multilíngue ✅ NIM ✅ Adaptadores ajustados LoRA➡️ Tech blog
[2024/07/02] Deixar os tokens @MistralAI MoE voarem? ? #Mixtral 8x7B com NVIDIA #TensorRT #LLM em #H100. ➡️ Blog de tecnologia
[2024/06/24] Aprimorado com NVIDIA #TensorRT #LLM, o solar-10.7B-instruct de @upstage.ai está pronto para potencializar seus projetos de desenvolvedor por meio de nosso catálogo de API ?️. ✨➡️ link
[2024/06/18] CYMI: ? A Difusão Estável 3 caiu na semana passada? ?️ Acelere seu SD3 com #TensorRT INT8 Quantization➡️ link
[2024/06/18] Implantando ComfyUI com TensorRT? Aqui está o seu guia de configuração ➡️ link
[2024/06/11] #TensorRT Weight-Stripped Engines ✨ Aprofundamento técnico para programadores sérios ✅+99% de compressão ✅1 conjunto de pesos → ** GPUs ✅0 perda de desempenho ✅** modelos…LLM, CNN, etc.➡️ link
[2024/06/04] #TensorRT e GeForce #RTX desbloqueiam poderes de super-heróis ComfyUI SD ?⚡ ? Demonstração: ➡️ link ? Caderno DIY: ➡️ link
[2024/05/28] #TensorRT remoção de peso para ResNet-50 ✨ ✅+99% de compressão ✅1 conjunto de pesos → ** GPUs ✅0 perda de desempenho ✅** modelos…LLM, CNN, etc? ? Faça você mesmo ➡️ link
[2024/05/21] @modal_labs tem os códigos para @AIatMeta Llama 3 sem servidor em #TensorRT #LLM ✨? ? Manual modal maravilhoso: TensorRT-LLM sem servidor (LLaMA 3 8B) | Documentos modais ➡️ link
[2024/05/08] NVIDIA TensorRT Model Optimizer - o mais novo membro do ecossistema #TensorRT é uma biblioteca de técnicas de otimização de modelo pós-treinamento e treinamento em loop ✅quantização ✅esparsidade ✅QAT ➡️ blog
[2024/05/07] 24.000 tokens por segundo ?Meta Llama 3 decola com #TensorRT #LLM ?➡️ link
[2024/02/06] Acelere a inferência com técnicas de quantização SOTA no TRT-LLM
[2024/01/30] O novo kernel XQA fornece 2,4x mais taxa de transferência Llama-70B dentro do mesmo orçamento de latência
[2023/12/04] Falcon-180B em uma única GPU H200 com INT4 AWQ e Llama-70B 6,7x mais rápido sobre A100
[2023/11/27] SageMaker LMI agora suporta TensorRT-LLM - melhora o rendimento em 60%, em comparação com a versão anterior
[2023/11/13] H200 atinge quase 12.000 tok/s no Llama2-13B
[2023/10/22] RAG no Windows usando TensorRT-LLM e LlamaIndex?
[2023/10/19] Guia de primeiros passos - Otimizando inferência em modelos de linguagem grande com NVIDIA TensorRT-LLM, agora disponível publicamente
[2023/10/17] Modelos de linguagem grande até 4x mais rápidos em RTX com TensorRT-LLM para Windows
TensorRT-LLM é uma biblioteca para otimizar a inferência do Large Language Model (LLM). Ele fornece otimizações de última geração, incluindo kernels de atenção personalizados, processamento em lote, cache KV paginado, quantização (FP8, INT4 AWQ, INT8 SmoothQuant, ++) e muito mais, para realizar inferência com eficiência em GPUs NVIDIA
TensorRT-LLM fornece uma API Python para construir LLMs em mecanismos TensorRT otimizados. Ele contém tempos de execução em Python (ligações) e C++ para executar esses mecanismos TensorRT. Também inclui um backend para integração com o NVIDIA Triton Inference Server. Os modelos construídos com TensorRT-LLM podem ser executados em uma ampla variedade de configurações, desde uma única GPU até vários nós com várias GPUs (usando paralelismo de tensor e/ou paralelismo de pipeline).
O TensorRT-LLM vem com vários modelos populares predefinidos. Eles podem ser facilmente modificados e estendidos para atender às necessidades personalizadas por meio de uma API Python semelhante ao PyTorch. Consulte a Matriz de Suporte para obter uma lista de modelos suportados.
O TensorRT-LLM foi desenvolvido com base na biblioteca TensorRT Deep Learning Inference. Ele aproveita muitas das otimizações de aprendizado profundo do TensorRT e adiciona otimizações específicas do LLM, conforme descrito acima. TensorRT é um compilador avançado; ele constrói "Motores" que são representações otimizadas do modelo compilado contendo todo o gráfico de execução. Esses mecanismos são otimizados para uma arquitetura de GPU específica e podem ser validados, comparados e serializados para implantação posterior em um ambiente de produção.
Para começar a usar o TensorRT-LLM, visite nossa documentação:
Guia de início rápido
Notas de versão
Guia de instalação para Linux
Guia de instalação para Windows
Hardware, modelos e outros softwares suportados
Zoológico modelo (gerado por TRT-LLM rel 0.9 a9356d4b7610330e89c1010f342a9ac644215c52)