مدونة | معانقة الوجه | ملعب | وظائف
نموذج متطور لتوليد الفيديو من Genmo.
تعد معاينة Mochi 1 نموذجًا مفتوحًا ومتطورًا لإنشاء الفيديو مع حركة عالية الدقة والتزام سريع قوي في التقييم الأولي. يعمل هذا النموذج على سد الفجوة بشكل كبير بين أنظمة توليد الفيديو المغلقة والمفتوحة. نحن نصدر النموذج بموجب ترخيص Apache 2.0 المسموح به. جرب هذا النموذج مجانًا في ملعبنا.
التثبيت باستخدام الأشعة فوق البنفسجية:
استنساخ بوابة https://github.com/genmoai/modelscd النماذج نقطة تثبيت الأشعة فوق البنفسجية uv venv .venvsource .venv/bin/activate uv pip install setuptools تثبيت نقطة الأشعة فوق البنفسجية -e . - عدم البناء والعزل
إذا كنت ترغب في تثبيت انتباه الفلاش، يمكنك استخدام:
uv pip install -e .[flash] --no-build-isolation
ستحتاج أيضًا إلى تثبيت FFMPEG لتحويل مخرجاتك إلى مقاطع فيديو.
استخدم download_weights.py لتنزيل النموذج + وحدة فك الترميز إلى دليل محلي. استخدامه مثل هذا:
python3 ./scripts/download_weights.py
أو قم بتنزيل الأوزان مباشرة من Hugging Face أو عبر magnet:?xt=urn:btih:441da1af7a16bcaa4f556964f8028d7113d21cbb&dn=weights&tr=udp://tracker.opentrackr.org:1337/announce
إلى مجلد على جهاز الكمبيوتر الخاص بك.
ابدأ واجهة مستخدم Gradio باستخدام
python3 ./demos/gradio_ui.py --model_dir ""
أو أنشئ مقاطع فيديو مباشرةً من واجهة سطر الأوامر (CLI) باستخدام
python3 ./demos/cli.py --model_dir ""
استبدل
بالمسار إلى دليل النموذج الخاص بك.
يأتي هذا المستودع مزودًا بواجهة برمجة تطبيقات بسيطة وقابلة للتركيب، بحيث يمكنك استدعاء النموذج برمجيًا. يمكنك العثور على مثال كامل هنا. ولكن، تقريبًا، يبدو الأمر كما يلي:
من genmo.mochi_preview.pipelines استيراد ( DecoderModelFactory، DitModelFactory، MochiSingleGPUPipeline، T5ModelFactory، خطي_تربيعي_جدول، )pipeline = MochiSingleGPUPipeline( text_encoder_factory=T5ModelFactory(), dit_factory=DitModelFactory( model_path=f"{MOCHI_DIR}/dit.safetensors"، model_dtype = "bf16" ), decoder_factory=DecoderModelFactory(model_path=f"{MOCHI_DIR}/vae.safetensors"، )، cpu_offload=صحيح، decode_type = "tiled_full"، )video = خط الأنابيب( الارتفاع=480, العرض=848, num_frames=31, num_inference_steps=64, sigma_schedule=linear_quadratic_schedule(64, 0.025), cfg_schedule=[4.5] * 64, Batch_cfg=False, موجه = موجهك المفضل هنا . .."، Negative_prompt = ""، البذور = 12345، )
يمثل Mochi 1 تقدمًا كبيرًا في إنشاء مقاطع فيديو مفتوحة المصدر، حيث يتميز بنموذج نشر يحتوي على 10 مليار معلمة مبني على بنية محول الانتشار غير المتماثل (AsymmDiT) الجديدة. تم تدريبه بالكامل من الصفر، وهو أكبر نموذج توليد فيديو تم إصداره بشكل علني على الإطلاق. والأفضل من ذلك كله، أنها بنية بسيطة وقابلة للاختراق. بالإضافة إلى ذلك، نقوم بإصدار أداة استدلال تتضمن تنفيذًا موازيًا فعالاً للسياق.
إلى جانب Mochi، نحن نفتح مصدر الفيديو الخاص بنا AsymmVAE. نحن نستخدم بنية فك التشفير والتشفير غير المتماثلة لبناء نموذج ضغط عالي الجودة وفعال. يقوم AsymmVAE الخاص بنا بضغط مقاطع الفيديو بشكل سببي إلى حجم أصغر بمقدار 128x، مع ضغط مكاني 8x8 وضغط زمني 6x إلى مساحة كامنة مكونة من 12 قناة.
بارامس عدد | قاعدة إنك القنوات | قاعدة ديسمبر القنوات | كامنة خافت | المكانية ضغط | زمني ضغط |
---|---|---|---|---|---|
362 م | 64 | 128 | 12 | 8x8 | 6x |
يقوم AsymmDiT بمعالجة مطالبات المستخدم بكفاءة إلى جانب رموز الفيديو المضغوطة من خلال تبسيط معالجة النص وتركيز قدرة الشبكة العصبية على التفكير البصري. يهتم AsymmDiT بشكل مشترك بالرموز النصية والمرئية مع الاهتمام الذاتي متعدد الوسائط ويتعلم طبقات MLP منفصلة لكل طريقة، على غرار Stable Diffusion 3. ومع ذلك، يحتوي التدفق المرئي لدينا على ما يقرب من 4 أضعاف عدد المعلمات مثل تدفق النص عبر مساحة مخفية أكبر البعد. لتوحيد طرائق الاهتمام الذاتي، نستخدم QKV غير المربع وطبقات إسقاط الإخراج. هذا التصميم غير المتماثل يقلل من متطلبات ذاكرة الاستدلال. تستخدم العديد من نماذج الانتشار الحديثة نماذج لغوية متعددة مُدربة مسبقًا لتمثيل مطالبات المستخدم. في المقابل، يقوم Mochi 1 ببساطة بتشفير المطالبات باستخدام نموذج لغة T5-XXL واحد.
بارامس عدد | رقم طبقات | رقم رؤساء | مرئي خافت | نص خافت | مرئي الرموز | نص الرموز |
---|---|---|---|---|---|---|
10 ب | 48 | 24 | 3072 | 1536 | 44520 | 256 |
يتطلب النموذج ما لا يقل عن 4 وحدات معالجة رسوميات H100 للتشغيل. ونحن نرحب بمساهمات المجتمع للحد من هذا الشرط.
نماذج فيديو Genmo هي نماذج عامة لنشر النص إلى الفيديو والتي تعكس بطبيعتها التحيزات والتصورات المسبقة الموجودة في بيانات التدريب الخاصة بهم. على الرغم من اتخاذ خطوات للحد من محتوى NSFW، يجب على المؤسسات تنفيذ بروتوكولات أمان إضافية ودراسة متأنية قبل نشر هذه الأوزان النموذجية في أي خدمات أو منتجات تجارية.
في إطار معاينة البحث، تعد Mochi 1 نقطة تفتيش حية ومتطورة. هناك عدد قليل من القيود المعروفة. يُنشئ الإصدار الأولي مقاطع فيديو بدقة 480 بكسل اليوم. في بعض حالات الحواف ذات الحركة الشديدة، يمكن أن يحدث أيضًا تزييف وتشوهات طفيفة. تم تحسين Mochi 1 أيضًا للأنماط الواقعية، لذا لا يعمل بشكل جيد مع المحتوى المتحرك. ونتوقع أيضًا أن يقوم المجتمع بضبط النموذج ليناسب التفضيلات الجمالية المختلفة.
يضيف ComfyUI-MochiWrapper دعم ComfyUI لـ Mochi. تم أخذ تكامل SDPA الخاص بـ Pytorch من مستودعهم.
@misc{genmo2024mochi, title={Mochi}, author={Genmo Team}, year={2024} }