文档:https://diffsynth-studio.readthedocs.io/zh-cn/latest/index.html
DiffSynth Studio 是一个扩散引擎。我们重构了文本编码器、UNet、VAE等架构,保持与开源社区模型的兼容性,同时增强计算性能。我们提供许多有趣的功能。享受扩散模型的魔力!
到目前为止,DiffSynth Studio已经支持以下模型:
2024 年 10 月 25 日我们提供广泛的 FLUX ControlNet 支持。该项目支持许多不同的 ControlNet 模型,即使它们的结构不同,也可以自由组合。此外,ControlNet 模型与高分辨率细化和分区控制技术兼容,可生成非常强大的可控图像。请参阅./examples/ControlNet/
。
2024年10月8日,我们发布了基于CogVideoX-5B和ExVideo的扩展LoRA。您可以从 ModelScope 或 HuggingFace 下载此模型。
2024 年 8 月 22 日。该项目支持 CogVideoX-5B。看这里。我们为这个文本到视频模型提供了几个有趣的功能,包括
2024 年 8 月 22 日。我们实现了一个有趣的画家,支持所有文本到图像模型。现在,您可以在人工智能的帮助下使用画家创建令人惊叹的图像!
2024 年 8 月 21 日。DiffSynth -Studio 支持 FLUX。
2024 年 6 月 21 日。 ???我们提出了 ExVideo,一种旨在增强视频生成模型能力的后期调整技术。我们扩展了稳定视频扩散以实现高达 128 帧的长视频的生成。
examples/ExVideo
。2024 年 6 月 13 日。DiffSynth Studio 转移到 ModelScope。开发者已经从“我”转变为“我们”。当然,我还是会参与开发和维护。
2024 年 1 月 29 日。我们提出了 Diffutoon,这是一种出色的卡通着色解决方案。
2023年12月8日。我们决定开发一个新项目,旨在释放扩散模型的潜力,特别是在视频合成方面。该项目的开发已启动。
2023 年 11 月 15 日。我们提出了 FastBlend,一种强大的视频去闪烁算法。
2023 年 10 月 1 日。我们发布了该项目的早期版本,即 FastSDXL。尝试构建扩散引擎。
2023 年 8 月 29 日。我们提出了 DiffSynth,一个视频合成框架。
从源代码安装(推荐):
git clone https://github.com/modelscope/DiffSynth-Studio.git
cd DiffSynth-Studio
pip install -e .
或者从 pypi 安装:
pip install diffsynth
Python 示例位于examples
中。我们在此提供概述。
下载预设模型。模型 ID 可以在配置文件中找到。
from diffsynth import download_models
download_models ([ "FLUX.1-dev" , "Kolors" ])
下载您自己的模型。
from diffsynth . models . downloader import download_from_huggingface , download_from_modelscope
# From Modelscope (recommended)
download_from_modelscope ( "Kwai-Kolors/Kolors" , "vae/diffusion_pytorch_model.fp16.bin" , "models/kolors/Kolors/vae" )
# From Huggingface
download_from_huggingface ( "Kwai-Kolors/Kolors" , "vae/diffusion_pytorch_model.fp16.safetensors" , "models/kolors/Kolors/vae" )
CogVideoX-5B由智普发布。我们提供改进的管道,支持文本到视频、视频编辑、自我升级和视频插值。 examples/video_synthesis
左边的视频是使用原始文本到视频管道生成的,而右边的视频是经过编辑和帧插值后的结果。
我们训练了扩展的视频合成模型,可以生成 128 帧。 examples/ExVideo
以扁平化风格渲染逼真的视频并启用视频编辑功能。 examples/Diffutoon
没有视频模型的视频风格化。 examples/diffsynth
突破扩散模型的限制,生成高分辨率图像! examples/image_synthesis
。
examples/train
支持 LoRA 微调。
通量 | 稳定扩散3 |
---|---|
科勒斯 | 浑源-DiT |
---|---|
稳定扩散 | 稳定扩散XL |
---|---|
在人工智能的帮助下,使用画家创建令人惊叹的图像!
该视频不是实时渲染的。
在启动 WebUI 之前,请将模型下载到文件夹./models
。看这里。
Gradio
版 pip install gradio
python apps/gradio/DiffSynth_Studio.py
Streamlit
版本 pip install streamlit streamlit-drawable-canvas
python -m streamlit run apps/streamlit/DiffSynth_Studio.py