افتتحت NVIDIA مؤخرًا نموذجين جديدين: Nemotron-4-Minitron-4B و Nemotron-4-Minitron-8B ، مما جعل اختراقات كبيرة في كفاءة التدريب. من خلال تقليم تقليم المعرفة منظم ، تم تخفيض البيانات المطلوبة لتدريب هذين النموذجين بمقدار 40 مرة ، وقد تم تخفيض تكلفة قوة الحوسبة بمقدار 1.8 مرة. لا يمثل هذا قفزة في تقنية الذكاء الاصطناعي فحسب ، بل يوفر أيضًا إمكانيات جديدة لحقل الذكاء الاصطناعي ، وقد ساهم في موارد قيمة لمجتمع الذكاء الاصطناعي.
يتطلب تدريب نموذج الذكاء الاصطناعي التقليدي الكثير من البيانات والتكوين. ومع ذلك ، فإن NVIDIA قد قللت بشكل كبير من هذا الطلب باستخدام تقليم منظم وتقطير المعرفة. على وجه التحديد ، مقارنة بالتدريب من نقطة الصفر ، تم تخفيض بيانات الرمز المميز للتدريب المطلوبة للنموذج الجديد بمقدار 40 مرة ، وقد وفرت تكلفة قوة الحوسبة 1.8 مرة. وراء هذا الإنجاز هو تحسين NVIDIA المتعمق للنموذج الحالي LAMA-3.18B.
التقليم الهيكلي هو تقنية ضغط الشبكة العصبية التي تبسط بنية النموذج عن طريق إزالة الأوزان غير المهمة. تختلف عن الفروع العشوائية ، تحتفظ الفروع المهيكلة ببنية مصفوفة الوزن.
تعطيل المعرفة هو وسيلة لتحسين الأداء من خلال تقليد نموذج المعلم لنماذج الطلاب. في ممارسة NVIDIA ، من خلال تقطير المعرفة القائم على السجل ، يمكن لنموذج الطالب أن يتعلم الفهم العميق لنموذج المعلم ، وحتى إذا كان ذلك يقلل إلى حد كبير من بيانات التدريب ، فيمكنه الحفاظ على أداء ممتاز.
زادت طرز Minitron-4B و Minitron-8B المدربة على الفروع المنظمة وتقطير المعرفة بنسبة 16 ٪ على MMLU ، ويمكن أن يكون الأداء مماثل لنماذج معروفة مثل MISTRAL7B و GEMMA7B و LLAMA-38B. يثبت هذا الإنجاز فعالية طريقة NVIDIA ، كما يوفر إمكانيات جديدة لتدريب ونشر نماذج الذكاء الاصطناعى الكبيرة.
لا يُظهر هذا المقياس المفتوح المصدر لـ NVIDIA موقعه القيادي في تقنية الذكاء الاصطناعي ، ولكنه يجلب أيضًا موارد قيمة لمجتمع الذكاء الاصطناعي. مع التقدم المستمر لتكنولوجيا الذكاء الاصطناعى ، نتطلع إلى رؤية أساليب أكثر ابتكارًا لتعزيز الذكاء الاصطناعى للتطور في اتجاه أكثر كفاءة وأكثر ذكاءً.
عنوان النموذج:
https://huggingface.co/nvidia/nemotron-4-minitron-4b-base
https://huggingface.co/nvidia/nemotron-4-minitron-8b-base
يوفر النموذجان الرئيسيان لـ NVIDIA Open Source أفكارًا جديدة لتحسين كفاءة حقل الذكاء الاصطناعي ، ويشيران أيضًا إلى تخفيض تكاليف تدريب نموذج الذكاء الاصطناعى في المستقبل وزيادة التوسع في نطاق التطبيق. نتطلع إلى المزيد من التطبيقات المبتكرة بناءً على هذا.