حقق مشروع Open-Sora مفتوح المصدر لفريق Luchen تقدمًا كبيرًا في مجال إنشاء فيديو عالي الوضوح بدقة 720 بكسل، حيث إن سرعة التوليد الفعالة والمخرجات عالية الجودة مذهلة. وسرعان ما اكتسب المشروع أكثر من 17.5 ألف نجم على GitHub وحظي باهتمام واسع النطاق في الصناعة، حتى أن Lambda Labs قامت ببناء عالم LEGO رقمي استنادًا إلى أوزان النماذج الخاصة به. Open-Sora ليس سهل الاستخدام فحسب، بل إنه مريح مثل طلب الوجبات الجاهزة، ولكن الأهم من ذلك، أنه يفتح أوزان النماذج والمسارات الفنية التفصيلية، مما يسمح لمزيد من المطورين والمتحمسين بالمشاركة وتعزيز تقدم تكنولوجيا الفيديو Wensheng.
في الآونة الأخيرة، حقق فريق Luchen Open-Sora تقدمًا كبيرًا في الجودة ووقت إنشاء فيديو Wensheng عالي الوضوح بدقة 720 بكسل، ولم يحققوا أخبارًا كبيرة فقط في جودة ووقت إنتاج الفيديو عالي الوضوح بدقة 720 بكسل، بل صنعوا أيضًا. هذا الطفل مفتوح المصدر، بحيث يكون المجتمع بأكمله متحمسًا!
ليس من المبالغة القول إن مشروعهم مفتوح المصدر يجعل إنشاء الفيديو أمرًا سهلاً مثل طلب الطعام الجاهز. منذ ظهوره لأول مرة في شهر مارس، حصل على 17.5 ألف نجمة على GitHub ويحظى بشعبية كبيرة!
عنوان مفتوح المصدر: https://github.com/hpcaitech/Open-Sora
يمكن لـ Open-Sora إنشاء مقاطع فيديو عالية الوضوح مدتها 16 ثانية بدقة 720 بكسل بنقرة واحدة، سواء كانت صورًا رائعة أو أفلام خيال علمي رائعة أو رسوم متحركة حية ومثيرة للاهتمام وتأثيرات تكبير سلسة، فيمكنها التعامل معها بسهولة. كلا، حتى شركة Lambda Labs، وهي شركة تعمل في مجال الذكاء الاصطناعي وتمتلك شركة Nvidia حصة فيها، أنشأت عالماً رقمياً من ألعاب الليغو استناداً إلى ثقل نموذج Open-Sora، مما يسمح لعشاق لعبة Lego بالعثور على عالم جديد من الإبداع.
لم يكتف فريق Luchen بإصدار أوزان النماذج من مصادر مفتوحة فحسب، بل قام أيضًا بنشر المسار الفني على GitHub، مما يسمح لكل لاعب بأن يصبح سيد نموذج الفيديو الكبير. يحلل هذا التقرير الفني بعمق النقاط الأساسية والرئيسية للتدريب النموذجي، بدءًا من شبكة ضغط الفيديو وحتى خوارزمية نموذج النشر ووصولاً إلى إمكانية التحكم. ويستخدمون نموذج توليد الانتشار 1.1B لحل نقاط الضعف في تدريب نموذج الفيديو.
عنوان التقرير: https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_03.md
إن إدخال شبكة ضغط الفيديو هو نفس أسلوب OpenAI's Sora. يمكنه إجراء ضغط 4 مرات في البعد الزمني دون استخراج الإطار، ويمكنه إنشاء مقاطع فيديو باستخدام FPS الأصلي. اقترح الفريق أيضًا شبكة بسيطة لضغط الفيديو (أي VAE)، يمكنها أولاً تحقيق ضغط 8 × 8 مرات في البعد المكاني، ثم ضغط 4 مرات في البعد الزمني.
يعمل أحدث نموذج نشر لـ Stable Diffusion3 على تحسين جودة التوليد من خلال تقنية التدفق المصحح. تشمل التقنيات التي يقدمها فريق Luchen التدريب على التصحيح وأخذ العينات ذات الخطوات الزمنية القياسية وما إلى ذلك، مما يؤدي إلى تسريع تدريب النموذج وتقليل وقت انتظار الاستدلال.
وكشف التقرير أيضًا عن التفاصيل الأساسية للتدريب النموذجي، بما في ذلك تنظيف البيانات وتقنيات ضبط النموذج وبناء نظام تقييم النموذج. كما أنها توفر نشرًا بنقرة واحدة لتطبيق Gradio، الذي يدعم تعديلات المعلمات المختلفة.
المصدر المفتوح لـ Luchen Open-Sora يكسر الحلقة المغلقة ويضخ الحيوية في ابتكار وتطوير Vincent Video. لقد تحول المستخدمون من مستهلكي المحتوى إلى المبدعين، وفتح مستخدمو المؤسسات مهارات جديدة للتطوير المستقل.
المصدر المفتوح لـ Open-Sora يخفض عتبة الدخول لتقنية فيديو Wensheng ويوفر إمكانيات غير محدودة لإنشاء محتوى إبداعي في المستقبل. ومن الجدير التطلع إلى التطوير اللاحق واستكشاف المزيد من سيناريوهات التطبيق.