قام فريق Colossal-AI بفتح مصدر حل إعادة إنتاج خوارزمية Sora Open-Sora، بهدف تقليل تكاليف إعادة الإنتاج وتحسين الأداء. يغطي هذا الحل العملية بأكملها بدءًا من معالجة البيانات وحتى استنتاج التدريب، ويدعم هياكل النماذج المتعددة وطرق ضغط الفيديو وتحسين التدريب الموازي، مما يؤدي إلى تحسين كفاءة التدريب بشكل كبير. استخدمت Open-Sora نموذج DiT-XL/2 لإجراء اختبار أداء بطول تسلسلي 600K على وحدة معالجة الرسومات H800 SXM 8*80GB واحدة. وأظهرت النتائج أن تحسين الأداء وتقليل التكلفة تجاوز 40%. يلتزم هذا المشروع بتوفير حل كامل وفعال لإعادة إنتاج Sora لتوفير الراحة للباحثين والمطورين.
قامت Colossal-AI بفتح المصدر الكامل لحل بنية التكرار Sora Open-Sora، بدعوى تقليل تكلفة التكرار بنسبة 46% وتوسيع طول تسلسل إدخال تدريب النموذج إلى 819 ألف تصحيح. حل إعادة إنتاج خوارزمية Sora في تقرير Sora الفني، يستخدم Sora شبكة ضغط فيديو لضغط مقاطع الفيديو ذات الأحجام المختلفة إلى سلسلة من الكتل المكانية والزمانية في مساحة كامنة، ثم يستخدم محول الانتشار لتقليل الضوضاء، وأخيرًا يفك التشفير لإنشاء فيديو. يلخص Open-Sora مسار التدريب الذي قد يستخدمه Sora لتوفير حل كامل لبنية تكرار Sora، بما في ذلك العملية بأكملها بدءًا من معالجة البيانات وحتى استنتاج التدريب. في الوقت الحاضر، توفر Open-Sora حلاً كاملاً لهندسة تكرار Sora، بما في ذلك العملية بأكملها بدءًا من معالجة البيانات وحتى استدلال التدريب، ودعم الدقة الديناميكية، وهياكل النماذج المتعددة، وطرق ضغط الفيديو المتعددة، وتحسينات التدريب المتوازي المتعددة. فيما يتعلق بالأداء، بأخذ اختبار الأداء لنموذج DiT-XL/2 على وحدة معالجة الرسوميات H800 SXM 8*80GB كمثال، عند طول تسلسلي يبلغ 600K، يتمتع حل Open-Sora بتحسن في الأداء بنسبة تزيد عن 40% التكلفة مقارنة بالحل الأساسي. عنوان Open-Sora مفتوح المصدر: https://github.com/hpcaitech/Open-Sora.يوفر المصدر المفتوح لـ Open-Sora موارد قيمة للباحثين والمطورين، مما يؤدي إلى تسريع تقدم تكنولوجيا إنشاء الفيديو. ومن المتوقع أن تشجع كفاءتها العالية وتكلفتها المنخفضة المزيد من الناس على المشاركة في البحث في هذا المجال. ونحن نتطلع إلى مزيد من التحسين والتطوير لـ Open-Sora في المستقبل للمساهمة بشكل أكبر في مجال إنشاء فيديو الذكاء الاصطناعي.