Documento: https://diffsynth-studio.readthedocs.io/zh-cn/latest/index.html
DiffSynth Studio é um mecanismo de difusão. Reestruturamos arquiteturas incluindo Text Encoder, UNet, VAE, entre outras, mantendo a compatibilidade com modelos da comunidade open source e melhorando o desempenho computacional. Fornecemos muitos recursos interessantes. Aproveite a magia dos modelos Diffusion!
Até agora, o DiffSynth Studio suportava os seguintes modelos:
25 de outubro de 2024 Oferecemos amplo suporte FLUX ControlNet. Este projeto suporta muitos modelos ControlNet diferentes que podem ser combinados livremente, mesmo que suas estruturas sejam diferentes. Além disso, os modelos ControlNet são compatíveis com refinamento de alta resolução e técnicas de controle de partição, permitindo geração de imagens controláveis muito poderosas. Consulte ./examples/ControlNet/
.
8 de outubro de 2024. Lançamos o LoRA estendido baseado em CogVideoX-5B e ExVideo. Você pode baixar este modelo em ModelScope ou HuggingFace.
22 de agosto de 2024. CogVideoX-5B é compatível com este projeto. Veja aqui. Fornecemos vários recursos interessantes para este modelo de texto para vídeo, incluindo
22 de agosto de 2024. Implementamos um pintor interessante que suporta todos os modelos de texto para imagem. Agora você pode criar imagens impressionantes usando o pintor, com a ajuda da IA!
21 de agosto de 2024. FLUX é compatível com DiffSynth-Studio.
21 de junho de 2024. ??? Propomos o ExVideo, uma técnica de pós-ajuste que visa aprimorar a capacidade de modelos de geração de vídeo. Estendemos o Stable Video Diffusion para alcançar a geração de vídeos longos de até 128 quadros.
examples/ExVideo
.13 de junho de 2024. DiffSynth Studio é transferido para ModelScope. Os desenvolvedores fizeram a transição de “eu” para “nós”. Claro, ainda participarei do desenvolvimento e da manutenção.
29 de janeiro de 2024. Propomos Diffutoon, uma solução fantástica para sombreamento de desenhos animados.
8 de dezembro de 2023. Decidimos desenvolver um novo projeto, visando liberar o potencial dos modelos de difusão, principalmente em vídeo síntese. O desenvolvimento deste projeto está iniciado.
15 de novembro de 2023. Propomos FastBlend, um poderoso algoritmo de eliminação de cintilação de vídeo.
1º de outubro de 2023. Lançamos uma versão inicial deste projeto, nomeadamente FastSDXL. Uma tentativa de construir um mecanismo de difusão.
29 de agosto de 2023. Propomos DiffSynth, uma estrutura de síntese de vídeo.
Instalar a partir do código-fonte (recomendado):
git clone https://github.com/modelscope/DiffSynth-Studio.git
cd DiffSynth-Studio
pip install -e .
Ou instale a partir do pypi:
pip install diffsynth
Os exemplos de Python estão em examples
. Fornecemos uma visão geral aqui.
Baixe os modelos predefinidos. Os IDs dos modelos podem ser encontrados no arquivo de configuração.
from diffsynth import download_models
download_models ([ "FLUX.1-dev" , "Kolors" ])
Baixe seus próprios modelos.
from diffsynth . models . downloader import download_from_huggingface , download_from_modelscope
# From Modelscope (recommended)
download_from_modelscope ( "Kwai-Kolors/Kolors" , "vae/diffusion_pytorch_model.fp16.bin" , "models/kolors/Kolors/vae" )
# From Huggingface
download_from_huggingface ( "Kwai-Kolors/Kolors" , "vae/diffusion_pytorch_model.fp16.safetensors" , "models/kolors/Kolors/vae" )
CogVideoX-5B é lançado pela ZhiPu. Fornecemos um pipeline aprimorado, com suporte para conversão de texto em vídeo, edição de vídeo, auto-upscaling e interpolação de vídeo. examples/video_synthesis
O vídeo à esquerda é gerado usando o pipeline original de texto para vídeo, enquanto o vídeo à direita é o resultado após edição e interpolação de quadros.
Treinamos modelos de síntese de vídeo estendidos, que podem gerar 128 quadros. examples/ExVideo
Renderize vídeos realistas em um estilo nivelado e habilite recursos de edição de vídeo. examples/Diffutoon
Estilização de vídeo sem modelos de vídeo. examples/diffsynth
Gere imagens de alta resolução, quebrando as limitações dos modelos de difusão! examples/image_synthesis
.
O ajuste fino do LoRA é suportado em examples/train
.
FLUXO | Difusão Estável 3 |
---|---|
Cores | Hunyuan-DiT |
---|---|
Difusão Estável | Difusão Estável XL |
---|---|
Crie imagens impressionantes usando o pintor, com a ajuda da IA!
Este vídeo não é renderizado em tempo real.
Antes de iniciar o WebUI, baixe os modelos para a pasta ./models
. Veja aqui.
Gradio
pip install gradio
python apps/gradio/DiffSynth_Studio.py
Streamlit
pip install streamlit streamlit-drawable-canvas
python -m streamlit run apps/streamlit/DiffSynth_Studio.py