Dokument: https://diffsynth-studio.readthedocs.io/zh-cn/latest/index.html
DiffSynth Studio ist eine Diffusions-Engine. Wir haben Architekturen wie Text Encoder, UNet, VAE und andere neu strukturiert, um die Kompatibilität mit Modellen aus der Open-Source-Community beizubehalten und gleichzeitig die Rechenleistung zu verbessern. Wir bieten viele interessante Funktionen. Genießen Sie die Magie der Diffusion-Modelle!
Bisher hat DiffSynth Studio die folgenden Modelle unterstützt:
25. Oktober 2024 Wir bieten umfassenden FLUX ControlNet-Support. Dieses Projekt unterstützt viele verschiedene ControlNet-Modelle, die frei kombiniert werden können, auch wenn sie sich in ihrer Struktur unterscheiden. Darüber hinaus sind ControlNet-Modelle mit hochauflösenden Verfeinerungs- und Partitionskontrolltechniken kompatibel und ermöglichen so eine sehr leistungsstarke steuerbare Bilderzeugung. Siehe ./examples/ControlNet/
.
8. Oktober 2024. Wir veröffentlichen das erweiterte LoRA basierend auf CogVideoX-5B und ExVideo. Sie können dieses Modell von ModelScope oder HuggingFace herunterladen.
22. August 2024. CogVideoX-5B wird in diesem Projekt unterstützt. Siehe hier. Wir bieten mehrere interessante Funktionen für dieses Text-zu-Video-Modell, darunter
22. August 2024. Wir haben einen interessanten Painter implementiert, der alle Text-zu-Bild-Modelle unterstützt. Jetzt können Sie mit dem Maler und der Unterstützung der KI atemberaubende Bilder erstellen!
21. August 2024. FLUX wird in DiffSynth-Studio unterstützt.
21. Juni 2024. ??? Wir schlagen ExVideo vor, eine Post-Tuning-Technik, die darauf abzielt, die Leistungsfähigkeit von Videogenerierungsmodellen zu verbessern. Wir haben die stabile Videodiffusion erweitert, um die Generierung langer Videos mit bis zu 128 Bildern zu ermöglichen.
examples/ExVideo
.13. Juni 2024. DiffSynth Studio wird auf ModelScope übertragen. Die Entwickler sind vom „Ich“ zum „Wir“ übergegangen. Natürlich werde ich mich weiterhin an der Entwicklung und Wartung beteiligen.
29. Januar 2024. Wir schlagen Diffutoon vor, eine fantastische Lösung für Toon-Shading.
8. Dezember 2023. Wir beschließen, ein neues Projekt zu entwickeln, das darauf abzielt, das Potenzial von Diffusionsmodellen, insbesondere in der Videosynthese, freizusetzen. Die Entwicklung dieses Projekts hat begonnen.
15. November 2023. Wir schlagen FastBlend vor, einen leistungsstarken Video-Deflackering-Algorithmus.
1. Oktober 2023. Wir veröffentlichen eine frühe Version dieses Projekts, nämlich FastSDXL. Ein Versuch zum Bau einer Diffusionsmaschine.
29. August 2023. Wir schlagen DiffSynth vor, ein Videosynthese-Framework.
Installation aus dem Quellcode (empfohlen):
git clone https://github.com/modelscope/DiffSynth-Studio.git
cd DiffSynth-Studio
pip install -e .
Oder von Pypi installieren:
pip install diffsynth
Die Python-Beispiele finden Sie in examples
. Einen Überblick geben wir hier.
Laden Sie die voreingestellten Modelle herunter. Modell-IDs finden Sie in der Konfigurationsdatei.
from diffsynth import download_models
download_models ([ "FLUX.1-dev" , "Kolors" ])
Laden Sie Ihre eigenen Modelle herunter.
from diffsynth . models . downloader import download_from_huggingface , download_from_modelscope
# From Modelscope (recommended)
download_from_modelscope ( "Kwai-Kolors/Kolors" , "vae/diffusion_pytorch_model.fp16.bin" , "models/kolors/Kolors/vae" )
# From Huggingface
download_from_huggingface ( "Kwai-Kolors/Kolors" , "vae/diffusion_pytorch_model.fp16.safetensors" , "models/kolors/Kolors/vae" )
CogVideoX-5B wird von ZhiPu veröffentlicht. Wir bieten eine verbesserte Pipeline, die Text-zu-Video, Videobearbeitung, Selbstskalierung und Videointerpolation unterstützt. examples/video_synthesis
Das Video auf der linken Seite wird mithilfe der ursprünglichen Text-zu-Video-Pipeline generiert, während das Video auf der rechten Seite das Ergebnis nach Bearbeitung und Frame-Interpolation ist.
Wir haben erweiterte Videosynthesemodelle trainiert, die 128 Frames erzeugen können. examples/ExVideo
Rendern Sie realistische Videos in einem flachen Stil und aktivieren Sie Videobearbeitungsfunktionen. examples/Diffutoon
Videostilisierung ohne Videomodelle. examples/diffsynth
Erzeugen Sie hochauflösende Bilder, indem Sie die Beschränkungen von Diffusionsmodellen überwinden! examples/image_synthesis
.
Die LoRA-Feinabstimmung wird in examples/train
unterstützt.
FLUSS | Stabile Diffusion 3 |
---|---|
Kolors | Hunyuan-DiT |
---|---|
Stabile Verbreitung | Stabile Diffusion XL |
---|---|
Erstellen Sie mit dem Maler und der Unterstützung der KI atemberaubende Bilder!
Dieses Video wird nicht in Echtzeit gerendert.
Bevor Sie die WebUI starten, laden Sie bitte Modelle in den Ordner ./models
herunter. Siehe hier.
Gradio
Version pip install gradio
python apps/gradio/DiffSynth_Studio.py
Streamlit
-Version pip install streamlit streamlit-drawable-canvas
python -m streamlit run apps/streamlit/DiffSynth_Studio.py