المستند: https://diffsynth-studio.readthedocs.io/zh-cn/latest/index.html
DiffSynth Studio هو محرك انتشار. لقد قمنا بإعادة هيكلة البنى بما في ذلك Text Encoder وUNet وVAE وغيرها، مع الحفاظ على التوافق مع النماذج من مجتمع المصادر المفتوحة مع تحسين الأداء الحسابي. نحن نقدم العديد من الميزات المثيرة للاهتمام. استمتع بسحر نماذج الانتشار!
حتى الآن، يدعم DiffSynth Studio النماذج التالية:
25 أكتوبر 2024 نحن نقدم دعمًا شاملاً لـ FLUX ControlNet. يدعم هذا المشروع العديد من نماذج ControlNet المختلفة التي يمكن دمجها بحرية، حتى لو اختلفت بنياتها. بالإضافة إلى ذلك، تتوافق نماذج ControlNet مع تقنيات التحسين والتحكم في الأقسام عالية الدقة، مما يتيح إنشاء صور قوية للغاية يمكن التحكم فيها. راجع ./examples/ControlNet/
.
8 أكتوبر 2024. قمنا بإصدار LoRA الممتد استنادًا إلى CogVideoX-5B وExVideo. يمكنك تنزيل هذا النموذج من ModelScope أو HuggingFace.
22 أغسطس 2024. يتم دعم CogVideoX-5B في هذا المشروع. انظر هنا. نحن نقدم العديد من الميزات المثيرة للاهتمام لنموذج تحويل النص إلى فيديو، بما في ذلك
22 أغسطس 2024. لقد قمنا بتنفيذ رسام مثير للاهتمام يدعم جميع نماذج تحويل النص إلى صورة. يمكنك الآن إنشاء صور مذهلة باستخدام الرسام بمساعدة الذكاء الاصطناعي!
21 أغسطس 2024. FLUX مدعوم في DiffSynth-Studio.
21 يونيو 2024. ؟؟؟ نقترح ExVideo، وهي تقنية ما بعد الضبط تهدف إلى تعزيز قدرة نماذج توليد الفيديو. لقد قمنا بتوسيع نشر الفيديو الثابت لتحقيق إنشاء مقاطع فيديو طويلة تصل إلى 128 إطارًا.
examples/ExVideo
.13 يونيو 2024. تم نقل DiffSynth Studio إلى ModelScope. لقد انتقل المطورون من "أنا" إلى "نحن". وبطبيعة الحال، سأظل أشارك في التطوير والصيانة.
29 يناير 2024. نقترح Diffutoon، وهو حل رائع لتظليل الرسوم المتحركة.
8 ديسمبر 2023. قررنا تطوير مشروع جديد يهدف إلى إطلاق إمكانات نماذج الانتشار، خاصة في تركيب الفيديو. بدأ تطوير هذا المشروع.
15 نوفمبر 2023. نقترح استخدام FastBlend، وهو خوارزمية قوية لإزالة انعكاس الفيديو.
1 أكتوبر 2023. قمنا بإصدار نسخة مبكرة من هذا المشروع، وهي FastSDXL. محاولة لبناء محرك الانتشار.
29 أغسطس 2023. نقترح DiffSynth، وهو إطار عمل لتركيب الفيديو.
التثبيت من الكود المصدري (مستحسن):
git clone https://github.com/modelscope/DiffSynth-Studio.git
cd DiffSynth-Studio
pip install -e .
أو التثبيت من pypi:
pip install diffsynth
أمثلة بايثون موجودة في examples
. نحن نقدم لمحة عامة هنا.
قم بتنزيل النماذج المحددة مسبقًا. يمكن العثور على معرفات النموذج في ملف التكوين.
from diffsynth import download_models
download_models ([ "FLUX.1-dev" , "Kolors" ])
قم بتنزيل النماذج الخاصة بك.
from diffsynth . models . downloader import download_from_huggingface , download_from_modelscope
# From Modelscope (recommended)
download_from_modelscope ( "Kwai-Kolors/Kolors" , "vae/diffusion_pytorch_model.fp16.bin" , "models/kolors/Kolors/vae" )
# From Huggingface
download_from_huggingface ( "Kwai-Kolors/Kolors" , "vae/diffusion_pytorch_model.fp16.safetensors" , "models/kolors/Kolors/vae" )
تم إصدار CogVideoX-5B بواسطة ZhiPu. نحن نقدم خط أنابيب محسنًا، يدعم تحويل النص إلى فيديو، وتحرير الفيديو، والترقية الذاتية، واستيفاء الفيديو. examples/video_synthesis
يتم إنشاء الفيديو الموجود على اليسار باستخدام مسار تحويل النص إلى فيديو الأصلي، بينما يكون الفيديو الموجود على اليمين هو النتيجة بعد التحرير واستيفاء الإطار.
لقد قمنا بتدريب نماذج موسعة لتركيب الفيديو، والتي يمكنها إنشاء 128 إطارًا. examples/ExVideo
قم بعرض مقاطع فيديو واقعية بأسلوب مسطح وتمكين ميزات تحرير الفيديو. examples/Diffutoon
تصميم الفيديو بدون نماذج فيديو. examples/diffsynth
توليد صور عالية الدقة، عن طريق كسر القيود المفروضة على نماذج الانتشار! examples/image_synthesis
.
يتم دعم ضبط LoRA في examples/train
.
تدفق | انتشار مستقر 3 |
---|---|
كولورز | هونيوان-ديت |
---|---|
انتشار مستقر | انتشار مستقر XL |
---|---|
أنشئ صورًا مذهلة باستخدام الرسام بمساعدة الذكاء الاصطناعي!
لا يتم عرض هذا الفيديو في الوقت الحقيقي.
قبل تشغيل WebUI، يرجى تنزيل النماذج إلى المجلد ./models
. انظر هنا.
Gradio
pip install gradio
python apps/gradio/DiffSynth_Studio.py
Streamlit
pip install streamlit streamlit-drawable-canvas
python -m streamlit run apps/streamlit/DiffSynth_Studio.py