[2024/10/22] Baru? Petunjuk langkah demi langkah tentang cara ✅ Mengoptimalkan LLM dengan NVIDIA TensorRT-LLM, ✅ Menerapkan model yang dioptimalkan dengan Triton Inference Server, ✅ Menyebarkan LLM secara otomatis di lingkungan Kubernetes. ? Penyelaman Mendalam Teknis: ➡️ tautan
[2024/10/07] Mengoptimalkan Pencarian Visual Microsoft Bing dengan NVIDIA Accelerated Libraries ➡️ tautan
[2024/09/29] AI di Meta PyTorch + TensorRT v2.4? ⚡TensorRT 10.1 ⚡PyTorch 2.4 ⚡CUDA 12.4 ⚡Python 3.12 ➡️ tautan
[2024/09/17] Pertemuan NVIDIA TensorRT-LLM ➡️ tautan
[2024/09/17] Mempercepat Inferensi LLM di Databricks dengan tautan TensorRT-LLM ➡️
[2024/09/17] Tautan TensorRT-LLM @ Baseten ➡️
[2024/09/04] Praktik Terbaik untuk Menyetel TensorRT-LLM untuk Penyajian Optimal dengan BentoML ➡️ tautan
[2024/08/20] SDXL dengan #TensorRT Model Optimizer ⏱️⚡ ? difusi cache? pelatihan sadar kuantisasi? QLoRA? #Python 3.12 ➡️ tautan
[2024/08/13] Penyelesaian Kode DIY dengan #Mamba ⚡ #TensorRT #LLM untuk kecepatan? NIM untuk kemudahan ☁️ sebarkan di mana saja ➡️ tautan
[2024/08/06] Tantangan Multibahasa Diterima? ? #TensorRT #LLM meningkatkan bahasa dengan sumber daya rendah seperti tautan Ibrani, Indonesia, dan Vietnam ⚡➡️
[2024/07/30] Memperkenalkan? @SliceXAI ELM Turbo? latih ELM sekali ⚡ #TensorRT #LLM optimalkan ☁️ terapkan di mana saja ➡️ tautan
[2024/07/23] @AIatMeta Llama 3.1 405B dilatih pada 16K NVIDIA H100s - inferensi #TensorRT #LLM dioptimalkan ⚡ ? 400 tok/dtk - per simpul? 37 tok/dtk - per pengguna? 1 simpul inferensi ➡️ tautan
[2024/07/09] Daftar periksa untuk memaksimalkan kinerja multi-bahasa @meta #Llama3 dengan inferensi #TensorRT #LLM: ✅ MultiLingual ✅ NIM ✅ Adaptor yang disetel LoRA➡️ Blog teknologi
[2024/07/02] Biarkan token @MistralAI MoE terbang? ? #Mixtral 8x7B dengan NVIDIA #TensorRT #LLM di #H100. ➡️ Blog teknologi
[2024/06/24] Ditingkatkan dengan NVIDIA #TensorRT #LLM, instruksi solar-10.7B @upstage.ai siap mendukung proyek pengembang Anda melalui katalog API kami ?️. ✨➡️ tautan
[2024/06/18] CYMI: ? Difusi Stabil 3 turun minggu lalu? ?️ Percepat SD3 Anda dengan tautan #TensorRT INT8 Quantization➡️
[2024/06/18] Menerapkan ComfyUI dengan TensorRT? Berikut panduan pengaturan Anda ➡️ tautan
[2024/06/11] #TensorRT Weight-Stripped Engine ✨ Technical Deep Dive untuk pembuat kode serius ✅+99% kompresi ✅1 set bobot → ** GPU ✅0 penurunan performa ✅** model…LLM, CNN, dll.➡️ link
[2024/06/04] #TensorRT dan GeForce #RTX membuka kekuatan superhero ComfyUI SD ?⚡ ? Demo: ➡️ tautan ? Buku catatan DIY: ➡️ tautan
[2024/05/28] #TensorRT pengurangan bobot untuk ResNet-50 ✨ ✅+99% kompresi ✅1 set bobot → ** GPU ✅0 penurunan performa ✅** model…LLM, CNN, dll? ? Tautan buatan sendiri ➡️
[21/05/2024] @modal_labs memiliki kode untuk @AIatMeta Llama 3 tanpa server di #TensorRT #LLM ✨? ? Manual Modal Luar Biasa: TensorRT-LLM Tanpa Server (LLaMA 3 8B) | Tautan Modal Dokumen ➡️
[2024/05/08] NVIDIA TensorRT Model Optimizer -- anggota terbaru ekosistem #TensorRT adalah pustaka teknik pengoptimalan model pasca-pelatihan dan pelatihan-in-the-loop ✅kuantisasi ✅sparsitas ✅QAT ➡️ blog
[2024/05/07] 24.000 token per detik ?Meta Llama 3 diluncurkan dengan tautan #TensorRT #LLM ?➡️
[2024/02/06] Mempercepat inferensi dengan teknik kuantisasi SOTA di TRT-LLM
[30/01/2024] Kernel XQA baru memberikan throughput Llama-70B 2,4x lebih banyak dalam anggaran latensi yang sama
[2023/12/04] Falcon-180B pada satu GPU H200 dengan INT4 AWQ, dan Llama-70B 6,7x lebih cepat dibandingkan A100
[27/11/2023] SageMaker LMI sekarang mendukung TensorRT-LLM - meningkatkan throughput sebesar 60%, dibandingkan versi sebelumnya
[2023/11/13] H200 mencapai hampir 12.000 tok/detik di Llama2-13B
[2023/10/22] RAG di Windows menggunakan TensorRT-LLM dan LlamaIndex?
[2023/10/19] Panduan Memulai - Mengoptimalkan Inferensi pada Model Bahasa Besar dengan NVIDIA TensorRT-LLM, Kini Tersedia untuk Publik
[2023/10/17] Model Bahasa Besar hingga 4x Lebih Cepat di RTX Dengan TensorRT-LLM untuk Windows
TensorRT-LLM adalah perpustakaan untuk mengoptimalkan inferensi Model Bahasa Besar (LLM). Ini memberikan optimasi canggih, termasuk kernel perhatian khusus, batching dalam penerbangan, cache KV halaman, kuantisasi (FP8, INT4 AWQ, INT8 SmoothQuant, ++) dan banyak lagi, untuk melakukan inferensi secara efisien pada GPU NVIDIA
TensorRT-LLM menyediakan API Python untuk membangun LLM ke dalam mesin TensorRT yang dioptimalkan. Ini berisi runtime dengan Python (binding) dan C++ untuk mengeksekusi mesin TensorRT tersebut. Ini juga mencakup backend untuk integrasi dengan NVIDIA Triton Inference Server. Model yang dibuat dengan TensorRT-LLM dapat dijalankan pada berbagai konfigurasi mulai dari satu GPU hingga beberapa node dengan beberapa GPU (menggunakan Tensor Parallelism dan/atau Pipeline Parallelism).
TensorRT-LLM hadir dengan beberapa model populer yang telah ditentukan sebelumnya. Mereka dapat dengan mudah dimodifikasi dan diperluas agar sesuai dengan kebutuhan khusus melalui API Python mirip PyTorch. Lihat Matriks Dukungan untuk daftar model yang didukung.
TensorRT-LLM dibangun di atas perpustakaan Inferensi Pembelajaran Mendalam TensorRT. Ini memanfaatkan sebagian besar pengoptimalan pembelajaran mendalam TensorRT dan menambahkan pengoptimalan khusus LLM di atasnya, seperti dijelaskan di atas. TensorRT adalah kompiler terdepan; itu membangun "Mesin" yang merupakan representasi optimal dari model terkompilasi yang berisi seluruh grafik eksekusi. Mesin ini dioptimalkan untuk arsitektur GPU tertentu, dan dapat divalidasi, diberi tolok ukur, dan diserialkan untuk penerapan selanjutnya di lingkungan produksi.
Untuk memulai TensorRT-LLM, kunjungi dokumentasi kami:
Panduan Memulai Cepat
Catatan Rilis
Panduan Instalasi untuk Linux
Panduan Instalasi untuk Windows
Perangkat Keras, Model, dan Perangkat Lunak lainnya yang Didukung
Kebun binatang model (dihasilkan oleh TRT-LLM rel 0.9 a9356d4b7610330e89c1010f342a9ac644215c52)