حقق فريق Doubao Big Model من Bytedance اختراقًا كبيرًا في الآونة الأخيرة ، وقد قام بنجاح بتطوير بنية جديدة متناثرة UltraMem. تحل هذه البنية بشكل مبتكر مشكلة الوصول إلى الذاكرة عالية القيمة في استنتاج نموذج MOE ، مما يحسن بشكل كبير من سرعة الاستدلال وكفاءته ، وتقليل تكلفة الاستدلال. مع ضمان تأثير النموذج ، زادت UltraMEM من سرعة الاستدلال بمقدار 2-6 مرات مقارنةً بـ MOE ، ويمكن تخفيض تكلفة الاستدلال بنسبة تصل إلى 83 ٪ ، مما يوفر حلاً جديدًا لاستنتاج نماذج كبيرة ووضع الأساس للبناء نماذج واسعة النطاق.
أعلن فريق Bytedance Doubao Big Model اليوم أنه قد طور بنجاح بنية نموذجية جديدة للغاية. من ذلك في MOE. يفتح هذا التقدم الذي تقدمه مسارات جديدة لاستنتاج نماذج كبيرة.
على فرضية ضمان تأثير النموذج ، نجحت بنية UltraMEM بنجاح في حل عنق الزجاجة الوصول إلى الذاكرة في استنتاج بنية Moe. تُظهر النتائج التجريبية أنه في ظل نفس المعلمات وظروف التنشيط ، ليس لدى UltraMem تأثير النموذج أفضل فقط من MOE ، ولكن أيضًا يزيد من سرعة الاستدلال بمقدار 2-6 مرات. بالإضافة إلى ذلك ، تحت مقياس حجم الدُفعة المشتركة ، تكون تكلفة الوصول إلى الذاكرة من UltraMEM مكافئة تقريبًا لتلك الموجودة في النموذج الكثيف مع نفس الحجم الحسابي ، مما يقلل بشكل كبير من تكلفة الاستدلال.
قام فريق البحث بتدريب نموذج UltraMem بمقياس 20 مليون قيمة. تتحقق هذه النتيجة من خصائص التحجيم الممتازة للهندسة المعمارية UltraMem وتضع الأساس الفني لبناء مليارات من القيمة أو النماذج الخبراء.
مع استمرار توسيع نطاق النماذج الكبيرة ، أصبحت تكلفة الاستدلال وسرعة العوامل الرئيسية التي تقيد تطبيقها. على الرغم من أن بنية MOE نفذت فك التشفير الحسابي من المعلمات ، فإن ارتفاع الطلب على الذاكرة أثناء الاستدلال يؤدي إلى زيادة في الكمون. إن اقتراح بنية UltraMEM يحل هذه المشكلة بفعالية ويوفر خيارات فنية جديدة للتطبيق على نطاق واسع للنماذج الكبيرة.
يمثل التطوير الناجح لعمارة UltraMem تقدمًا كبيرًا في تقنية الاستدلال الكبيرة ، ويوفر دعمًا فنيًا قويًا للتطبيق الواسع النطاق للنماذج الكبيرة في المستقبل ، ويشير أيضًا إلى أن عصر النموذج الكبير على وشك الوصول. إن أدائها الممتاز وفعاليته من حيث التكلفة سيؤدي إلى قيادة تطبيق النماذج الكبيرة وتطويرها في المزيد من الحقول.