علم محرر Downcodes أنه تم إحراز تقدم كبير في مجال إنشاء الفيديو! قامت شركة Genmo بفتح المصدر لأحدث نموذج لتوليد الفيديو Mochi1، والذي يحتوي على 10 مليار معلمة وهو أكبر نموذج لتوليد الفيديو يتم إصداره للعامة حاليًا. يعتمد Mochi1 على بنية محول الانتشار غير المتماثل (AsymmDiT) المبتكرة، وهي بسيطة وسهلة التعديل، مما يوفر راحة كبيرة لمطوري مجتمع المصادر المفتوحة، ويمكنه إنشاء مقاطع فيديو عالية الجودة تصل مدتها إلى 5.4 ثانية وبمعدل إطارات يصل إلى 30. إطارات / ثانية.
لقد تحقق تقدم كبير في مجال إنشاء الفيديو! قامت شركة Genmo بفتح المصدر لأحدث طرازاتها من إنتاج الفيديو، Mochi1، مما يضع معيارًا جديدًا في مجال إنشاء الفيديو. يستخدم Mochi1 بنية محول الانتشار غير المتماثل (AsymmDiT) المبتكرة ويحتوي على ما يصل إلى 10 مليار معلمة، مما يجعله أكبر نموذج لتوليد الفيديو تم إصداره للعامة حتى الآن.
والأهم من ذلك، أنه تم تدريبه بالكامل من الصفر ولديه بنية بسيطة وقابلة للتعديل، مما يوفر راحة كبيرة للمطورين في مجتمع المصادر المفتوحة.
أكبر ما يميز Mochi1 هو جودة الحركة الممتازة والامتثال الدقيق للمطالبات النصية. فهو قادر على إنتاج مقاطع فيديو سلسة تصل مدتها إلى 5.4 ثانية مع معدل إطارات يصل إلى 30 إطارًا في الثانية، مع تماسك زمني مذهل وديناميكيات حركة واقعية.
يمكن لـ Mochi1 أيضًا محاكاة العديد من الظواهر الفيزيائية، مثل ديناميكيات السوائل، ومحاكاة الشعر، وما إلى ذلك. تتمتع الشخصيات التي تولدها بحركات طبيعية وسلسة، تقريبًا قابلة للمقارنة بعروض الحياة الواقعية.
من أجل تسهيل استخدامه على المطورين، قامت Genmo أيضًا بفتح مصدر الفيديو VAE الخاص بها، والذي يمكنه ضغط الفيديو إلى 1/128 من الحجم الأصلي، مما يقلل بشكل فعال من مقدار الحساب ومتطلبات الذاكرة للنموذج.
تتعامل بنية AsymmDiT بكفاءة مع مطالبات المستخدم وعلامات الفيديو المضغوطة من خلال آلية الاهتمام الذاتي متعددة الوسائط، وتتعلم طبقات MLP منفصلة لكل طريقة، مما يزيد من تحسين كفاءة النموذج وأدائه.
يمثل إصدار Mochi1 خطوة مهمة في مجال إنشاء الفيديو مفتوح المصدر. وقالت شركة Genmo إنها ستطلق النسخة الكاملة من Mochi1 قبل نهاية العام، بما في ذلك Mochi1HD الذي يدعم إنشاء فيديو بدقة 720 بكسل، وفي ذلك الوقت سيتم تحسين دقة الفيديو وسلاسةه بشكل أكبر.
ومن أجل السماح لعدد أكبر من الأشخاص بتجربة الوظائف القوية لـ Mochi1، أطلقت Genmo أيضًا ملعبًا مستضافًا مجانيًا، والذي يمكن للمستخدمين تجربته على genmo.ai/play. تم أيضًا نشر أوزان Mochi1 وبنيتها على منصة HuggingFace ليتمكن المطورون من تنزيلها واستخدامها.
تتألف Genmo من أعضاء أساسيين في مشاريع مثل DDPM وDreamFusion وEmu Video، ويضم فريقها الاستشاري أيون ستويكا، الرئيس التنفيذي والمؤسس المشارك لشركة Databricks وAnyscale، المؤسس المشارك لشركة Covariant والعضو الأول في فريق OpenAI وقادة صناعة أنظمة نماذج اللغة مثل جوي جونزاليس، الرائد والمؤسس المشارك لشركة Turi.
تتمثل مهمة Genmo في فتح الدماغ الأيمن للذكاء الاصطناعي العام، ويعد Mochi1 الخطوة الأولى في بناء جهاز محاكاة للعالم يمكنه تخيل أي شيء، ممكنًا أو مستحيلًا.
أكملت شركة Genmo مؤخرًا جولة التمويل من السلسلة A بقيادة NEA، بإجمالي 28.4 مليون دولار أمريكي، والتي ستوفر دعمًا ماليًا كافيًا للبحث والتطوير في المستقبل.
في حين حقق Mochi1 نتائج مبهرة، فإنه لا يزال لديه بعض القيود. على سبيل المثال، يمكن للإصدار الأولي حاليًا إنتاج فيديو بدقة 480 بكسل فقط، مع تشويه طفيف وتشويه في بعض حالات الحركة الشديدة. بالإضافة إلى ذلك، تم تحسين Mochi1 حاليًا لأسلوب الصور الواقعية، ويحتاج أدائه في محتوى الرسوم المتحركة إلى تحسين.
تقول Genmo إنها ستستمر في تحسين Mochi1 وتشجع المجتمع على ضبط النموذج ليناسب التفضيلات الجمالية المختلفة. وفي الوقت نفسه، قاموا أيضًا بتنفيذ بروتوكولات قوية لتدقيق السلامة في ملاعبهم للتأكد من أن جميع عمليات إنتاج الفيديو تكون أخلاقية.
تنزيل النموذج: https://huggingface.co/genmo/mochi-1-preview
التجربة عبر الإنترنت: https://www.genmo.ai/play
المقدمة الرسمية: https://www.genmo.ai/blog
يوفر المصدر المفتوح لـ Mochi1 إمكانيات جديدة في مجال إنشاء الفيديو، كما أن وظائفه القوية واستخدامه المريح تستحق التطلع إليها. ستعمل جهود Genmo المستمرة والمشاركة المجتمعية النشطة على تعزيز تقدم تكنولوجيا توليد الفيديو. نتطلع إلى وصول Mochi1HD وظهور المزيد من الإنجازات المبتكرة.