[2024/10/22] ใหม่ ? คำแนะนำทีละขั้นตอนเกี่ยวกับวิธี ✅ ปรับ LLM ให้เหมาะสมด้วย NVIDIA TensorRT-LLM, ✅ ปรับใช้โมเดลที่ปรับให้เหมาะสมด้วย Triton Inference Server, ✅ ปรับปรับขนาด LLM อัตโนมัติในสภาพแวดล้อม Kubernetes - เจาะลึกทางเทคนิค: ลิงก์ ➡️
[2024/10/07] การเพิ่มประสิทธิภาพการค้นหาภาพ Microsoft Bing ด้วยลิงก์ NVIDIA Accelerated Libraries ➡️
[29/09/2024] AI ที่ Meta PyTorch + TensorRT v2.4 ? ⚡TensorRT 10.1 ⚡PyTorch 2.4 ⚡CUDA 12.4 ⚡Python 3.12 ➡️ ลิงก์
[2024/09/17] ลิงก์ Meetup NVIDIA TensorRT-LLM ➡️
[2024/09/17] เร่งการอนุมาน LLM ที่ Databricks ด้วยลิงก์ TensorRT-LLM ➡️
[2024/09/17] ลิงก์ TensorRT-LLM @ Baseten ➡️
[2024/09/04] แนวทางปฏิบัติที่ดีที่สุดในการปรับแต่ง TensorRT-LLM เพื่อการแสดงผลที่เหมาะสมที่สุดด้วยลิงก์ BentoML ➡️
[2024/08/20] SDXL พร้อม #TensorRT Model Optimizer ⏱️⚡ ? การแพร่กระจายแคช ? การฝึกอบรมการรับรู้เชิงปริมาณ ? คิวลอรา ? #Python 3.12 ➡️ ลิงค์
[2024/08/13] DIY Code เสร็จสิ้นด้วย #Mamba ⚡ #TensorRT #LLM เพื่อความรวดเร็ว ? NIM เพื่อความสะดวก ☁️ ปรับใช้ได้ทุกที่ ➡️ ลิงก์
[2024/08/06] ยอมรับความท้าทายหลายภาษาแล้ว ? - #TensorRT #LLM ส่งเสริมภาษาที่มีทรัพยากรต่ำ เช่น ลิงก์ภาษาฮีบรู อินโดนีเซีย และเวียดนาม ⚡➡️
[2024/07/30] แนะนำ? @SliceXAI ELM เทอร์โบ? ฝึกฝน ELM หนึ่งครั้ง ⚡ #TensorRT #LLM เพิ่มประสิทธิภาพ ☁️ ปรับใช้ได้ทุกที่ ➡️ ลิงก์
[23/07/2024] @AIatMeta Llama 3.1 405B ฝึกฝนบน 16K NVIDIA H100s - การอนุมานคือ #TensorRT #LLM ปรับให้เหมาะสม ⚡ ? 400 tok/s - ต่อโหนด ? 37 tok/s - ต่อผู้ใช้ ? ลิงก์ ➡️ การอนุมาน 1 โหนด
[07/09/2024] รายการตรวจสอบเพื่อเพิ่มประสิทธิภาพหลายภาษาของ @meta #Llama3 ด้วยการอนุมาน #TensorRT #LLM: ✅ หลายภาษา ✅ NIM ✅ อะแดปเตอร์ที่ปรับแต่ง LoRA➡️ บล็อกเทคโนโลยี
[2024/07/02] ปล่อยให้โทเค็น @MistralAI MoE บินไปเหรอ? - #Mixtral 8x7B พร้อม NVIDIA #TensorRT #LLM บน #H100 ➡️บล็อกเทคโนโลยี
[24/06/2024] ปรับปรุงด้วย NVIDIA #TensorRT #LLM คำสั่ง Solar-10.7B ของ @upstage.ai พร้อมที่จะขับเคลื่อนโครงการนักพัฒนาของคุณผ่านแค็ตตาล็อก API ของเรา ️ ✨➡️ลิ้ง
[2024/06/18] ซีมี: ? Stable Diffusion 3 ลดลงเมื่อสัปดาห์ที่แล้ว ? ️ เร่งความเร็ว SD3 ของคุณด้วยลิงก์ #TensorRT INT8 Quantization➡️
[2024/06/18] กำลังปรับใช้ ComfyUI กับ TensorRT หรือไม่ นี่คือคู่มือการตั้งค่า ➡️ ลิงก์
[2024/06/11] #TensorRT Weight-Stripped Engines ✨ เจาะลึกทางเทคนิคสำหรับผู้เขียนโค้ดที่จริงจัง ✅การบีบอัด +99% ✅ตุ้มน้ำหนัก 1 ชุด → ** GPU ✅0 ประสิทธิภาพที่ลดลง ✅** รุ่น…LLM, CNN, ฯลฯ➡️ ลิงค์
[2024/06/04] #TensorRT และ GeForce #RTX ปลดล็อกพลังซูเปอร์ฮีโร่ ComfyUI SD ?⚡ ? การสาธิต: ➡️ ลิงค์ ? สมุดโน๊ต DIY: ➡️ ลิงค์
[2024/05/28] #TensorRT การปอกตุ้มน้ำหนักสำหรับ ResNet-50 ✨ การบีบอัด +99% ✅ตุ้มน้ำหนัก 1 ชุด → ** GPU ✅0 ประสิทธิภาพที่ลดลง ✅** รุ่น…LLM, CNN ฯลฯ ? - ลิงค์ DIY ➡️
[2024/05/21] @modal_labs มีรหัสสำหรับเซิร์ฟเวอร์ @AIatMeta Llama 3 บน #TensorRT #LLM ✨? - คู่มือ Modal มหัศจรรย์: Serverless TensorRT-LLM (LLaMA 3 8B) | ลิงค์เอกสาร Modal ➡️
[2024/05/08] NVIDIA TensorRT Model Optimizer -- สมาชิกใหม่ล่าสุดของระบบนิเวศ #TensorRT คือไลบรารีของเทคนิคการเพิ่มประสิทธิภาพโมเดลหลังการฝึกอบรมและการฝึกอบรมในวงวน ✅quantization ✅sparsity ✅QAT ➡️บล็อก
[2024/05/07] 24,000 โทเค็นต่อวินาที ?Meta Llama 3 เริ่มต้นด้วย #TensorRT #LLM ?➡️ ลิงก์
[2024/02/06] เร่งการอนุมานด้วยเทคนิคการหาปริมาณ SOTA ใน TRT-LLM
[30/02/2024] XQA-kernel ใหม่ให้ปริมาณงาน Llama-70B เพิ่มขึ้น 2.4 เท่าภายในงบประมาณเวลาแฝงเดียวกัน
[2023/12/04] Falcon-180B บน H200 GPU ตัวเดียวพร้อม INT4 AWQ และ Llama-70B เร็วกว่า A100 ถึง 6.7 เท่า
[27/11/2023] ขณะนี้ SageMaker LMI รองรับ TensorRT-LLM - ปรับปรุงปริมาณงานขึ้น 60% เมื่อเทียบกับเวอร์ชันก่อนหน้า
[11/2023/13] H200 บรรลุความเร็วเกือบ 12,000 tok/วินาทีบน Llama2-13B
[22/10/2023] RAG บน Windows โดยใช้ TensorRT-LLM และ LlamaIndex ?
[10/2023/19] คู่มือเริ่มต้นใช้งาน - การเพิ่มประสิทธิภาพการอนุมานในโมเดลภาษาขนาดใหญ่ด้วย NVIDIA TensorRT-LLM พร้อมให้ใช้งานแบบสาธารณะแล้ว
[2023/10/17] โมเดลภาษาขนาดใหญ่เร็วขึ้นสูงสุด 4 เท่าบน RTX ด้วย TensorRT-LLM สำหรับ Windows
TensorRT-LLM เป็นไลบรารีสำหรับเพิ่มประสิทธิภาพการอนุมาน Large Language Model (LLM) โดยให้การเพิ่มประสิทธิภาพที่ล้ำสมัย รวมถึงเคอร์เนลความสนใจที่กำหนดเอง แบตช์บนเครื่องบิน การแคช KV แบบเพจ การหาปริมาณ (FP8, INT4 AWQ, INT8 SmoothQuant, ++) และอื่นๆ อีกมากมาย เพื่อทำการอนุมานอย่างมีประสิทธิภาพบน NVIDIA GPU
TensorRT-LLM มี Python API เพื่อสร้าง LLM ให้เป็นกลไก TensorRT ที่ได้รับการเพิ่มประสิทธิภาพ ประกอบด้วยรันไทม์ใน Python (การเชื่อมโยง) และ C++ เพื่อรันเอ็นจิ้น TensorRT เหล่านั้น นอกจากนี้ยังมีแบ็กเอนด์สำหรับการทำงานร่วมกับ NVIDIA Triton Inference Server โมเดลที่สร้างด้วย TensorRT-LLM สามารถดำเนินการได้บนการกำหนดค่าที่หลากหลายตั้งแต่ GPU ตัวเดียวไปจนถึงหลายโหนดที่มี GPU หลายตัว (โดยใช้ Tensor Parallelism และ/หรือ Pipeline Parallelism)
TensorRT-LLM มาพร้อมกับรุ่นยอดนิยมหลายรุ่นที่กำหนดไว้ล่วงหน้า สามารถแก้ไขและขยายได้อย่างง่ายดายเพื่อให้เหมาะกับความต้องการที่กำหนดเองผ่าน Python API ที่คล้ายกับ PyTorch โปรดดู Support Matrix สำหรับรายการรุ่นที่รองรับ
TensorRT-LLM สร้างขึ้นจากไลบรารีการอนุมานการเรียนรู้เชิงลึกของ TensorRT โดยใช้ประโยชน์จากการเพิ่มประสิทธิภาพการเรียนรู้เชิงลึกของ TensorRT และเพิ่มการเพิ่มประสิทธิภาพเฉพาะ LLM ไว้ด้านบน ตามที่อธิบายไว้ข้างต้น TensorRT เป็นคอมไพเลอร์ล่วงหน้า มันสร้าง "เครื่องยนต์" ซึ่งได้รับการปรับให้เหมาะสมที่สุดของโมเดลที่คอมไพล์ซึ่งมีกราฟการดำเนินการทั้งหมด เอ็นจิ้นเหล่านี้ได้รับการปรับให้เหมาะสมสำหรับสถาปัตยกรรม GPU เฉพาะ และสามารถตรวจสอบ เปรียบเทียบ และซีเรียลไลซ์สำหรับการปรับใช้ในสภาพแวดล้อมการผลิตในภายหลัง
หากต้องการเริ่มต้นใช้งาน TensorRT-LLM โปรดไปที่เอกสารประกอบของเรา:
คู่มือเริ่มต้นใช้งานฉบับย่อ
บันทึกประจำรุ่น
คู่มือการติดตั้งสำหรับ Linux
คู่มือการติดตั้งสำหรับ Windows
ฮาร์ดแวร์ รุ่น และซอฟต์แวร์อื่นๆ ที่รองรับ
สวนสัตว์จำลอง (สร้างโดย TRT-LLM rel 0.9 a9356d4b7610330e89c1010f342a9ac644215c52)