[22.10.2024] Новое? Пошаговые инструкции о том, как ✅ оптимизировать LLM с помощью NVIDIA TensorRT-LLM, ✅ развернуть оптимизированные модели с помощью Triton Inference Server, ✅ автоматически масштабировать развертывание LLM в среде Kubernetes. ? Подробный технический обзор: ➡️ ссылка
[2024/10/07] Оптимизация визуального поиска Microsoft Bing с помощью ускоренных библиотек NVIDIA ➡️ ссылка
[29.09.2024] AI в Meta PyTorch + TensorRT v2.4? ⚡TensorRT 10.1 ⚡PyTorch 2.4 ⚡CUDA 12.4 ⚡Python 3.12 ➡️ ссылка
[2024/09/17] Встреча NVIDIA TensorRT-LLM ➡️ ссылка
[2024/09/17] Ускорение вывода LLM в Databricks с помощью TensorRT-LLM ➡️ ссылка
[2024/09/17] TensorRT-LLM @ Baseten ➡️ ссылка
[2024/09/04] Рекомендации по настройке TensorRT-LLM для оптимального обслуживания с помощью BentoML ➡️ ссылка
[20.08.2024] SDXL с оптимизатором модели #TensorRT ⏱️⚡ ? диффузия кэша? Обучение с учетом квантования? QLoRA ? #Python 3.12 ➡️ ссылка
[2024/08/13] Дополнение кода своими руками с помощью #Mamba ⚡ #TensorRT #LLM для скорости ? NIM для удобства ☁️ развертывание где угодно ➡️ ссылка
[2024/08/06] Многоязычный вызов принят? ? #TensorRT #LLM способствует развитию языков с низким уровнем ресурсов, таких как иврит, индонезийский и вьетнамский ⚡➡️ ссылка
[2024/07/30] Представляем? @SliceXAI ELM Turbo ? обучить ELM один раз ⚡ #TensorRT #LLM оптимизировать ☁️ развернуть где угодно ➡️ ссылка
[2024/07/23] @AIatMeta Llama 3.1 405B, обученная на 16K NVIDIA H100s — вывод оптимизирован #TensorRT #LLM ⚡ ? 400 ток/с - на узел? 37 ток/с - на пользователя? Вывод 1 узла ➡️ ссылка
[2024/07/09] Контрольный список для максимизации многоязычной производительности @meta #Llama3 с выводом #TensorRT #LLM: ✅ Многоязычный ✅ NIM ✅ Адаптеры с настройкой LoRA➡️ Технический блог
[2024/07/02] Пусть токены @MistralAI MoE полетят? ? #Mixtral 8x7B с NVIDIA #TensorRT #LLM на #H100. ➡️ Технический блог
[24.06.2024] Усовершенствованный с помощью NVIDIA #TensorRT #LLM, солнечный-10.7B-instruct от @upstage.ai готов обеспечить поддержку ваших проектов разработчиков через наш каталог API ?️. ✨➡️ ссылка
[2024/06/18] CYMI: ? Stable Diffusion 3 вышла на прошлой неделе? ?️ Ускорьте свой SD3 с помощью #TensorRT INT8 Quantization➡️ ссылка
[2024/06/18] Развертываете ComfyUI с TensorRT? Вот руководство по настройке ➡️ ссылка
[2024/06/11] Двигатели #TensorRT с уменьшенным весом ✨ Глубокое техническое погружение для серьезных программистов ✅+99% сжатие ✅1 набор весов → ** Графические процессоры ✅0 потерь производительности ✅** модели… LLM, CNN и т. д.➡️ связь
[2024/06/04] #TensorRT и GeForce #RTX открывают супергеройские возможности ComfyUI SD ?⚡ ? Демо: ➡️ ссылка? Блокнот своими руками: ➡️ ссылка
[28.05.2024] Удаление веса #TensorRT для ResNet-50 ✨ ✅+99% сжатия ✅1 набор весов → ** Графические процессоры ✅0 потерь производительности ✅** модели… LLM, CNN и т. д.? ? Сделай сам ➡️ ссылка
[21.05.2024] У @modal_labs есть коды для бессерверной @AIatMeta Llama 3 на #TensorRT #LLM ✨? ? Замечательное руководство по модальным окнам: бессерверный TensorRT-LLM (LLaMA 3 8B) | Модальные документы ➡️ ссылка
[2024/05/08] NVIDIA TensorRT Model Optimizer — новейший член экосистемы #TensorRT — это библиотека методов оптимизации моделей после обучения и в цикле обучения ✅квантование ✅разреженность ✅QAT ➡️ блог
[2024/05/07] 24 000 токенов в секунду ?Meta Llama 3 взлетает с #TensorRT #LLM ?➡️ ссылка
[2024/02/06] Ускорьте вывод с помощью методов квантования SOTA в TRT-LLM.
[2024/01/30] Новое ядро XQA обеспечивает в 2,4 раза большую пропускную способность Llama-70B при том же бюджете задержки.
[2023/12/04] Falcon-180B на одном графическом процессоре H200 с INT4 AWQ и в 6,7 раза быстрее Llama-70B по сравнению с A100
[27.11.2023] SageMaker LMI теперь поддерживает TensorRT-LLM — пропускная способность повышается на 60 % по сравнению с предыдущей версией.
[2023/11/13] H200 достигает почти 12 000 ток/сек на Llama2-13B
[22.10.2023] RAG в Windows с использованием TensorRT-LLM и LlamaIndex?
[2023/10/19] Руководство по началу работы — оптимизация вывода на больших языковых моделях с помощью NVIDIA TensorRT-LLM, теперь общедоступная
[2023/10/17] Большие языковые модели до 4 раз быстрее на RTX с TensorRT-LLM для Windows
TensorRT-LLM — это библиотека для оптимизации вывода модели большого языка (LLM). Он обеспечивает самые современные оптимизации, включая специальные ядра внимания, пакетную обработку в реальном времени, страничное кэширование KV, квантование (FP8, INT4 AWQ, INT8 SmoothQuant, ++) и многое другое для эффективного выполнения вывода на графических процессорах NVIDIA.
TensorRT-LLM предоставляет API Python для создания LLM в оптимизированных механизмах TensorRT. Он содержит среды выполнения на Python (привязки) и C++ для выполнения этих механизмов TensorRT. Он также включает в себя серверную часть для интеграции с сервером вывода NVIDIA Triton. Модели, созданные с помощью TensorRT-LLM, могут быть выполнены в широком диапазоне конфигураций: от одного графического процессора до нескольких узлов с несколькими графическими процессорами (с использованием тензорного параллелизма и/или конвейерного параллелизма).
TensorRT-LLM поставляется с предопределенными несколькими популярными моделями. Их можно легко модифицировать и расширять в соответствии с индивидуальными потребностями с помощью API Python, подобного PyTorch. Список поддерживаемых моделей см. в матрице поддержки.
TensorRT-LLM построен на основе библиотеки вывода глубокого обучения TensorRT. Он использует большую часть оптимизации глубокого обучения TensorRT и добавляет оптимизации, специфичные для LLM, как описано выше. TensorRT — это передовой компилятор; он создает «движки», которые представляют собой оптимизированные представления скомпилированной модели, содержащие весь граф выполнения. Эти механизмы оптимизированы для конкретной архитектуры графического процессора и могут быть проверены, протестированы и сериализованы для последующего развертывания в производственной среде.
Чтобы начать работу с TensorRT-LLM, посетите нашу документацию:
Краткое руководство
Примечания к выпуску
Руководство по установке для Linux
Руководство по установке для Windows
Поддерживаемое оборудование, модели и другое программное обеспечение
Модель зоопарка (создана TRT-LLM версия 0.9 a9356d4b7610330e89c1010f342a9ac644215c52)