هذا شوكة عمل قيد التقدم لنموذج txt2video الخاص بـ Genmoai المُحسّن للتشغيل على عقدة GPU واحدة مع ذاكرة VRAM منخفضة.
إنه قادر تمامًا على 48 جيجابايت، ولكن يجب أن يتم تشغيله باستخدام وحدة معالجة رسومات واحدة بسعة 24 جيجابايت الآن.
لا تتجاوز 61 إطارًا وحاول 640 × 480. تستخدم VRAM في الغالب مقاييس مع عدد الإطارات ودقة الوضوح. لا ينبغي أن تغير خطوات الاستدلال استخدام VRAM، ولكن الوقت المستغرق لإنشاء فيديو يتدرج مع الخطوات. يبدو أن 100 خطوة جيدة ومن المحتمل أن تستغرق من 15 إلى 25 دقيقة. استخدم المصدر الأصلي 200 خطوة، لكن هذا سيستغرق ضعف الوقت تقريبًا.
ويندوز لم يتم اختباره بعد، ولكن ربما يمكن أن تعمل؟ ¯ (ツ) /¯
إذا كان نظامك يستخدم بالفعل VRAM لتشغيل سطح المكتب، فقد تحتاج إلى خفض الإعدادات بشكل أكبر.
في الغالب مجرد تحويل vae وte وdit وما إلى ذلك ذهابًا وإيابًا إلى وحدة المعالجة المركزية عند عدم الحاجة إليها واستخدام bfloat16 في كل مكان. قد يتطلب هذا ذاكرة وصول عشوائي كبيرة للنظام (حوالي 64 جيجابايت) أو قد يكون بطيئًا جدًا إذا كان لا بد من العودة إلى استخدام ملف ترحيل الصفحات إذا كانت ذاكرة الوصول العشوائي للنظام <= 32 جيجابايت نظرًا لأن T5 وDIT لا يزالان كبيرين إلى حد ما. يعد الوقت اللازم لتحريك النماذج ذهابًا وإيابًا صغيرًا إلى حد ما مقارنة بوقت الاستدلال الذي يستغرقه خطوات DIT.
مزيد من التحسين... ربما bitsandbytes NF4. قد يؤدي ذلك إلى خفض سعته إلى 16 جيجابايت أو أقل، على افتراض أنه لا يدمر جودة الإخراج. قد أحاول معرفة ما إذا كان بإمكاني إدخال صورة الإطار الأول لجعلها تعمل على img2video.
مدونة | معانقة الوجه | ملعب | وظائف
نموذج متطور لتوليد الفيديو من Genmo.
تعد معاينة Mochi 1 نموذجًا مفتوحًا ومتطورًا لإنشاء الفيديو مع حركة عالية الدقة والتزام سريع قوي في التقييم الأولي. يعمل هذا النموذج على سد الفجوة بشكل كبير بين أنظمة توليد الفيديو المغلقة والمفتوحة. نحن نصدر النموذج بموجب ترخيص Apache 2.0 المسموح به. جرب هذا النموذج مجانًا في ملعبنا.
التثبيت باستخدام الأشعة فوق البنفسجية:
git clone https://github.com/genmoai/models
cd models
pip install uv
uv venv .venv
source .venv/bin/activate
uv pip install -e .
قم بتنزيل الأوزان من Hugging Face أو عبر magnet:?xt=urn:btih:441da1af7a16bcaa4f556964f8028d7113d21cbb&dn=weights&tr=udp://tracker.opentrackr.org:1337/announce
إلى مجلد على جهاز الكمبيوتر الخاص بك.
ابدأ واجهة مستخدم Gradio باستخدام
python3 -m mochi_preview.gradio_ui --model_dir " "
أو أنشئ مقاطع فيديو مباشرةً من واجهة سطر الأوامر (CLI) باستخدام
python3 -m mochi_preview.infer --prompt " A hand with delicate fingers picks up a bright yellow lemon from a wooden bowl filled with lemons and sprigs of mint against a peach-colored background. The hand gently tosses the lemon up and catches it, showcasing its smooth texture. A beige string bag sits beside the bowl, adding a rustic touch to the scene. Additional lemons, one halved, are scattered around the base of the bowl. The even lighting enhances the vibrant colors and creates a fresh, inviting atmosphere. " --seed 1710977262 --cfg-scale 4.5 --model_dir " "
استبدل
بالمسار إلى دليل النموذج الخاص بك.
يمثل Mochi 1 تقدمًا كبيرًا في إنشاء مقاطع فيديو مفتوحة المصدر، حيث يتميز بنموذج نشر يحتوي على 10 مليار معلمة مبني على بنية محول الانتشار غير المتماثل (AsymmDiT) الجديدة. تم تدريبه بالكامل من الصفر، وهو أكبر نموذج توليد فيديو تم إصداره بشكل علني على الإطلاق. والأفضل من ذلك كله، أنها بنية بسيطة وقابلة للاختراق. بالإضافة إلى ذلك، نقوم بإصدار أداة استدلال تتضمن تنفيذًا موازيًا فعالاً للسياق.
إلى جانب Mochi، نحن نفتح مصدر الفيديو الخاص بنا AsymmVAE. نحن نستخدم بنية فك التشفير والتشفير غير المتماثلة لبناء نموذج ضغط عالي الجودة وفعال. يقوم AsymmVAE الخاص بنا بضغط مقاطع الفيديو بشكل سببي إلى حجم أصغر بمقدار 128x، مع ضغط مكاني 8x8 وضغط زمني 6x إلى مساحة كامنة مكونة من 12 قناة.
بارامس عدد | قاعدة إنك القنوات | قاعدة ديسمبر القنوات | كامنة خافت | المكانية ضغط | زمني ضغط |
---|---|---|---|---|---|
362 م | 64 | 128 | 12 | 8x8 | 6x |
يقوم AsymmDiT بمعالجة مطالبات المستخدم بكفاءة إلى جانب رموز الفيديو المضغوطة من خلال تبسيط معالجة النص وتركيز قدرة الشبكة العصبية على التفكير البصري. يهتم AsymmDiT بشكل مشترك بالرموز النصية والمرئية مع الاهتمام الذاتي متعدد الوسائط ويتعلم طبقات MLP منفصلة لكل طريقة، على غرار Stable Diffusion 3. ومع ذلك، يحتوي التدفق المرئي لدينا على ما يقرب من 4 أضعاف عدد المعلمات مثل تدفق النص عبر مساحة مخفية أكبر البعد. لتوحيد طرائق الاهتمام الذاتي، نستخدم QKV غير المربع وطبقات إسقاط الإخراج. هذا التصميم غير المتماثل يقلل من متطلبات ذاكرة الاستدلال. تستخدم العديد من نماذج الانتشار الحديثة نماذج لغوية متعددة مُدربة مسبقًا لتمثيل مطالبات المستخدم. في المقابل، يقوم Mochi 1 ببساطة بتشفير المطالبات باستخدام نموذج لغة T5-XXL واحد.
بارامس عدد | رقم طبقات | رقم رؤساء | مرئي خافت | نص خافت | مرئي الرموز | نص الرموز |
---|---|---|---|---|---|---|
10 ب | 48 | 24 | 3072 | 1536 | 44520 | 256 |
يتطلب النموذج ما لا يقل عن 4 وحدات معالجة رسوميات H100 للتشغيل. ونحن نرحب بمساهمات المجتمع للحد من هذا الشرط.
نماذج فيديو Genmo هي نماذج عامة لنشر النص إلى الفيديو والتي تعكس بطبيعتها التحيزات والتصورات المسبقة الموجودة في بيانات التدريب الخاصة بهم. على الرغم من اتخاذ خطوات للحد من محتوى NSFW، يجب على المؤسسات تنفيذ بروتوكولات أمان إضافية ودراسة متأنية قبل نشر هذه الأوزان النموذجية في أي خدمات أو منتجات تجارية.
في إطار معاينة البحث، تعد Mochi 1 نقطة تفتيش حية ومتطورة. هناك عدد قليل من القيود المعروفة. يُنشئ الإصدار الأولي مقاطع فيديو بدقة 480 بكسل اليوم. في بعض حالات الحواف ذات الحركة الشديدة، يمكن أن يحدث أيضًا تزييف وتشوهات طفيفة. تم تحسين Mochi 1 أيضًا للأنماط الواقعية، لذا لا يعمل بشكل جيد مع المحتوى المتحرك. ونتوقع أيضًا أن يقوم المجتمع بضبط النموذج ليناسب التفضيلات الجمالية المختلفة.
@misc{genmo2024mochi,
title={Mochi},
author={Genmo Team},
year={2024}
}