[2024/10/22] 새로운? ✅ NVIDIA TensorRT-LLM으로 LLM 최적화, ✅ Triton Inference Server로 최적화된 모델 배포, ✅ Kubernetes 환경에서 LLM 자동 확장 배포 방법에 대한 단계별 지침입니다. ? 기술 심층 분석: ➡️ 링크
[2024/10/07] NVIDIA 가속 라이브러리로 Microsoft Bing 시각적 검색 최적화 ➡️ 링크
[2024/09/29] Meta PyTorch + TensorRT v2.4의 AI ? ⚡TensorRT 10.1 ⚡PyTorch 2.4 ⚡CUDA 12.4 ⚡Python 3.12 ➡️ 링크
[2024/09/17] NVIDIA TensorRT-LLM Meetup ➡️ 링크
[2024/09/17] TensorRT-LLM을 통해 Databricks에서 LLM 추론 가속화 ➡️ 링크
[2024/09/17] TensorRT-LLM @ Baseten ➡️링크
[2024/09/04] BentoML을 통한 최적의 서비스 제공을 위한 TensorRT-LLM 튜닝 모범 사례 ➡️ 링크
[2024/08/20] #TensorRT 모델 최적화 기능을 갖춘 SDXL ⏱️⚡ ? 캐시 확산? 양자화 인식 훈련? 클로라? #파이썬 3.12 ➡️ 링크
[2024/08/13] 속도를 위해 #Mamba ⚡ #TensorRT #LLM으로 DIY 코드 완성 ? 간편한 NIM ☁️ 어디서나 배포 ➡️ 링크
[2024/08/06] 다국어 도전이 허용됩니까? ? #TensorRT #LLM은 히브리어, 인도네시아어, 베트남어와 같은 자원이 적은 언어를 향상시킵니다 ⚡➡️ 링크
[2024/07/30] 소개해요? @SliceXAI ELM 터보? ELM 교육 ⚡ #TensorRT #LLM 최적화 ☁️ 어디서나 배포 ➡️ 링크
[2024/07/23] @AIatMeta Llama 3.1 405B는 16K NVIDIA H100으로 훈련되었습니다 - 추론은 #TensorRT #LLM 최적화됨 ⚡ ? 400톡/초 - 노드당 ? 37톡/초 - 사용자당 ? 1개 노드 추론 ➡️ 링크
[2024/07/09] #TensorRT #LLM 추론을 통해 @meta #Llama3의 다국어 성능을 극대화하기 위한 체크리스트: ✅ 다국어 ✅ NIM ✅ LoRA 조정 어댑터 ➡️ 기술 블로그
[2024/07/02] @MistralAI MoE 토큰을 날리세요? ? #H100에 NVIDIA #TensorRT #LLM이 포함된 #Mixtral 8x7B. ➡️ 기술 블로그
[2024/06/24] NVIDIA #TensorRT #LLM으로 향상된 @upstage.ai의 Solar-10.7B-instruct는 API 카탈로그 ?️를 통해 개발자 프로젝트를 강화할 준비가 되었습니다. ✨➡️ 링크
[2024/06/18] CYMI: ? Stable Diffusion 3이 지난주에 떨어졌나요? ?️ #TensorRT INT8 양자화로 SD3 속도를 높이세요➡️ 링크
[2024/06/18] TensorRT로 ComfyUI를 배포하시나요? 설정 가이드는 다음과 같습니다 ➡️ 링크
[2024/06/11] #TensorRT 경량화된 엔진 ✨ 전문 코더를 위한 기술 심층 분석 ✅+99% 압축 ✅1 세트의 가중치 → ** GPU ✅0 성능 손실 ✅** 모델…LLM, CNN 등➡️ 링크
[2024/06/04] #TensorRT 및 GeForce #RTX로 ComfyUI SD 슈퍼히어로 능력 잠금 해제 ?⚡ ? 데모: ➡️ 링크 ? DIY 노트: ➡️ 링크
[2024/05/28] #ResNet-50에 대한 TensorRT 가중치 제거 ✨ ✅+99% 압축 ✅1 가중치 세트 → ** GPU ✅0 성능 손실 ✅** 모델…LLM, CNN 등 ? ? DIY ➡️ 링크
[2024/05/21] @modal_labs에는 #TensorRT #LLM ✨에 서버리스 @AIatMeta Llama 3에 대한 코드가 있습니다. ? 놀라운 모달 매뉴얼: 서버리스 TensorRT-LLM(LLaMA 3 8B) | 모달 문서 ➡️ 링크
[2024/05/08] NVIDIA TensorRT Model Optimizer - #TensorRT 생태계의 최신 멤버는 사후 훈련 및 루프 내 훈련 모델 최적화 기술의 라이브러리입니다 ✅Quantization ✅sparsity ✅QAT ➡️ 블로그
[2024/05/07] 초당 24,000개 토큰 ?Meta Llama 3가 #TensorRT #LLM으로 도약 ?➡️ 링크
[2024/02/06] TRT-LLM의 SOTA 양자화 기술로 추론 속도 향상
[2024/01/30] 새로운 XQA 커널은 동일한 대기 시간 예산 내에서 2.4배 더 많은 Llama-70B 처리량을 제공합니다.
[2023/12/04] INT4 AWQ를 갖춘 단일 H200 GPU의 Falcon-180B 및 A100보다 6.7배 빠른 Llama-70B
[2023/11/27] SageMaker LMI는 이제 TensorRT-LLM을 지원합니다 - 이전 버전에 비해 처리량 60% 향상
[2023/11/13] H200은 Llama2-13B에서 거의 12,000 tok/sec를 달성합니다.
[2023/10/22] TensorRT-LLM 및 LlamaIndex를 사용하는 Windows의 RAG?
[2023/10/19] 시작 가이드 - 이제 공개적으로 사용 가능한 NVIDIA TensorRT-LLM을 사용하여 대규모 언어 모델에서 추론 최적화
[2023/10/17] Windows용 TensorRT-LLM을 사용하여 RTX에서 최대 4배 더 빠른 대규모 언어 모델
TensorRT-LLM은 LLM(대형 언어 모델) 추론을 최적화하기 위한 라이브러리입니다. NVIDIA GPU에서 추론을 효율적으로 수행할 수 있도록 맞춤형 주의 커널, 기내 일괄 처리, 페이징된 KV 캐싱, 양자화(FP8, INT4 AWQ, INT8 SmoothQuant, ++) 등을 포함한 최첨단 최적화 기능을 제공합니다.
TensorRT-LLM은 최적화된 TensorRT 엔진에 LLM을 구축하기 위한 Python API를 제공합니다. 여기에는 TensorRT 엔진을 실행하기 위한 Python(바인딩) 및 C++ 런타임이 포함되어 있습니다. 또한 NVIDIA Triton Inference Server와의 통합을 위한 백엔드도 포함되어 있습니다. TensorRT-LLM으로 구축된 모델은 단일 GPU부터 여러 GPU가 있는 여러 노드(Tensor 병렬 처리 및/또는 파이프라인 병렬 처리 사용)까지 광범위한 구성에서 실행될 수 있습니다.
TensorRT-LLM에는 사전 정의된 여러 인기 모델이 함께 제공됩니다. PyTorch와 유사한 Python API를 통해 사용자 정의 요구에 맞게 쉽게 수정하고 확장할 수 있습니다. 지원되는 모델 목록은 지원 매트릭스를 참조하세요.
TensorRT-LLM은 TensorRT Deep Learning Inference 라이브러리 위에 구축되었습니다. 위에서 설명한 대로 TensorRT의 딥 러닝 최적화를 대부분 활용하고 위에 LLM 관련 최적화를 추가합니다. TensorRT는 사전 컴파일러입니다. 전체 실행 그래프를 포함하는 컴파일된 모델의 최적화된 표현인 "엔진"을 구축합니다. 이러한 엔진은 특정 GPU 아키텍처에 최적화되어 있으며 나중에 프로덕션 환경에 배포하기 위해 검증, 벤치마킹 및 직렬화될 수 있습니다.
TensorRT-LLM을 시작하려면 다음 설명서를 참조하세요.
빠른 시작 가이드
릴리스 노트
Linux용 설치 안내서
Windows용 설치 가이드
지원되는 하드웨어, 모델 및 기타 소프트웨어
모델 동물원(TRT-LLM rel 0.9 a9356d4b7610330e89c1010f342a9ac644215c52에 의해 생성됨)