تنزيل TensorRT LLM - تنزيل كود مصدر TensorRT LLM

TensorRT LLM

شفرة المصدر الأخرى

TensorRT-LLM

تنزيل

TensorRT-LLM

مجموعة أدوات TensorRT لتحسين استدلال نموذج اللغة الكبير

العمارة | النتائج | أمثلة | التوثيق

آخر الأخبار

[2024/10/22] جديد ؟ إرشادات خطوة بخطوة حول كيفية ✅ تحسين LLMs باستخدام NVIDIA TensorRT-LLM، ✅ نشر النماذج المحسنة باستخدام Triton Inference Server، ✅ نشر LLMs تلقائيًا في بيئة Kubernetes. ؟ الغوص التقني العميق: ➡️ الرابط

[2024/10/07] تحسين البحث المرئي في Microsoft Bing باستخدام مكتبات NVIDIA Accelerated ➡️ الرابط
[2024/09/29] الذكاء الاصطناعي في Meta PyTorch + TensorRT v2.4؟ ⚡TensorRT 10.1 ⚡PyTorch 2.4 ⚡CUDA 12.4 ⚡Python 3.12 ➡️ الرابط
[2024/09/17] رابط لقاء NVIDIA TensorRT-LLM ➡️
[2024/09/17] تسريع استدلال LLM في Databricks باستخدام TensorRT-LLM ➡️ link
[2024/09/17] TensorRT-LLM @ Baseten ➡️ الرابط
[2024/09/04] أفضل الممارسات لضبط TensorRT-LLM للتقديم الأمثل مع BentoML ➡️ link
[2024/08/20] SDXL مع #TensorRT Model Optimizer ⏱️⚡ ؟ نشر ذاكرة التخزين المؤقت؟ التدريب على علم الكم؟ كلورا ؟ #بايثون 3.12 ➡️ الرابط
[2024/08/13] إكمال الكود بنفسك مع #Mamba ⚡ #TensorRT #LLM للسرعة؟ NIM لسهولة ☁️ النشر في أي مكان ➡️ الرابط
[2024/08/06] هل تم قبول تحدي تعدد اللغات؟ ؟ #TensorRT #LLM يعزز اللغات منخفضة الموارد مثل العبرية والإندونيسية والفيتنامية ⚡➡️ الرابط
[2024/07/30] تقديم؟ @SliceXAI الدردار توربو؟ تدريب ELM مرة واحدة ⚡ #TensorRT #LLM الأمثل ☁️ النشر في أي مكان ➡️ الرابط
[2024/07/23] @AIatMeta Llama 3.1 405B تم تدريبه على 16K NVIDIA H100s - الاستدلال هو #TensorRT #LLM محسّن ⚡ ? 400 توك / ثانية - لكل عقدة؟ 37 توك/ثانية - لكل مستخدم؟ 1 عقدة الاستدلال ➡️ الرابط
[2024/07/09] قائمة التحقق لتعظيم أداء متعدد اللغات لـ @meta #Llama3 مع استدلال #TensorRT #LLM: ✅ متعدد اللغات ✅ NIM ✅ محولات LoRA المضبوطة➡️ مدونة تقنية
[2024/07/02] دع رموزMistralAI MoE تطير؟ ؟ #Mixtral 8x7B مع NVIDIA #TensorRT #LLM على #H100. ➡️ مدونة تقنية

الأخبار السابقة

[2024/06/24] مُحسّن باستخدام NVIDIA #TensorRT #LLM، @upstage.ai's Solar-10.7B-instruct جاهز لتشغيل مشاريع المطورين الخاصة بك من خلال كتالوج API الخاص بنا؟️. ✨➡️ الرابط
[2024/06/18] سيمي: ؟ لقد تم إسقاط Stable Diffusion 3 الأسبوع الماضي؟ ️ قم بتسريع SD3 الخاص بك باستخدام رابط #TensorRT INT8 Quantization➡️
[2024/06/18] هل يتم نشر ComfyUI مع TensorRT؟ إليك دليل الإعداد الخاص بك ➡️ الرابط
[2024/06/11] محركات #TensorRT ذات الوزن المجرد ✨ الغوص التقني العميق للمبرمجين الجادين ✅+99% ضغط ✅مجموعة واحدة من الأوزان → ** وحدات معالجة الرسومات ✅0 فقدان الأداء ✅** النماذج... LLM، CNN، إلخ.➡️ وصلة
[2024/06/04] #TensorRT و GeForce #RTX يفتحان قوى الأبطال الخارقين ComfyUI SD ⚡؟ العرض التوضيحي: ➡️ الرابط؟ دفتر DIY: ➡️ الرابط
[2024/05/28] تجريد الوزن #TensorRT لـ ResNet-50 ✨ ✅+99% ضغط ✅مجموعة واحدة من الأوزان → ** وحدات معالجة الرسومات ✅0 فقدان الأداء ✅** النماذج... LLM، CNN، إلخ؟ ؟ DIY ➡️ الرابط
[2024/05/21] @modal_labs لديه رموز @AIatMeta Llama 3 بدون خادم على #TensorRT #LLM ✨؟ ؟ دليل مشروط رائع: TensorRT-LLM بدون خادم (LLaMA 3 8B) | المستندات المشروطة ➡️ الرابط
[2024/05/08] NVIDIA TensorRT Model Optimizer - أحدث عضو في النظام البيئي #TensorRT عبارة عن مكتبة لتقنيات تحسين نماذج ما بعد التدريب والتدريب داخل الحلقة ✅التكميم ✅التناثر ✅QAT ➡️ مدونة
[2024/05/07] 24000 رمز في الثانية ?Meta Llama 3 تنطلق مع #TensorRT #LLM ?➡️ الرابط
[2024/02/06] تسريع الاستدلال باستخدام تقنيات التكميم SOTA في TRT-LLM
[2024/01/30] توفر نواة XQA الجديدة إنتاجية Llama-70B أكبر بمقدار 2.4 مرة في نفس ميزانية زمن الوصول
[2023/12/04] Falcon-180B على وحدة معالجة رسوميات H200 واحدة مع INT4 AWQ، وLlama-70B أسرع بـ 6.7 مرات من A100
[2023/11/27] يدعم SageMaker LMI الآن TensorRT-LLM - يعمل على تحسين الإنتاجية بنسبة 60%، مقارنة بالإصدار السابق
[2023/11/13] يحقق H200 ما يقرب من 12000 طن / ثانية على Llama2-13B
[2023/10/22] RAG على نظام التشغيل Windows باستخدام TensorRT-LLM وLlamaIndex؟
[2023/10/19] دليل البدء - تحسين الاستدلال على نماذج اللغات الكبيرة باستخدام NVIDIA TensorRT-LLM، متاح الآن للعامة
[2023/10/17] نماذج اللغات الكبيرة أسرع بما يصل إلى 4 مرات على RTX مع TensorRT-LLM لنظام التشغيل Windows

نظرة عامة على TensorRT-LLM

TensorRT-LLM هي مكتبة لتحسين استدلال نموذج اللغة الكبير (LLM). إنه يوفر تحسينات حديثة، بما في ذلك نواة الاهتمام المخصصة، والتجميع على متن الطائرة، والتخزين المؤقت لصفحات KV، والتكميم (FP8، INT4 AWQ، INT8 SmoothQuant، ++) وأكثر من ذلك بكثير، لأداء الاستدلال بكفاءة على وحدات معالجة الرسومات NVIDIA

يوفر TensorRT-LLM واجهة برمجة تطبيقات Python لبناء LLMs في محركات TensorRT المحسنة. يحتوي على أوقات تشغيل في Python (الارتباطات) وC++ لتنفيذ محركات TensorRT تلك. ويتضمن أيضًا واجهة خلفية للتكامل مع خادم NVIDIA Triton Inference Server. يمكن تنفيذ النماذج المبنية باستخدام TensorRT-LLM على نطاق واسع من التكوينات بدءًا من وحدة معالجة رسومات واحدة إلى عقد متعددة مع وحدات معالجة رسوميات متعددة (باستخدام Tensor Parallelism و/أو Pipeline Parallelism).

يأتي TensorRT-LLM مزودًا بالعديد من النماذج الشائعة المحددة مسبقًا. يمكن تعديلها وتوسيعها بسهولة لتناسب الاحتياجات المخصصة عبر واجهة برمجة تطبيقات Python التي تشبه PyTorch. راجع مصفوفة الدعم للحصول على قائمة بالنماذج المدعومة.

تم بناء TensorRT-LLM على رأس مكتبة TensorRT Deep Learning Inference. إنه يستفيد من الكثير من تحسينات التعلم العميق في TensorRT ويضيف تحسينات خاصة بـ LLM في الأعلى، كما هو موضح أعلاه. TensorRT هو مترجم سابق للزمن؛ يقوم بإنشاء "محركات" وهي عبارة عن تمثيلات محسنة للنموذج المترجم الذي يحتوي على الرسم البياني للتنفيذ بالكامل. تم تحسين هذه المحركات لتتناسب مع بنية GPU محددة، ويمكن التحقق من صحتها وقياسها وتسلسلها لنشرها لاحقًا في بيئة الإنتاج.