Uma interface web para Stable Diffusion, implementada usando a biblioteca Gradio.
Vitrine detalhada de recursos com imagens:
Modos txt2img e img2img originais
Um clique para instalar e executar o script (mas você ainda deve instalar python e git)
Pintura superior
Pintura
Esboço colorido
Matriz de prompt
Difusão Estável Upscale
Atenção, especifique partes do texto às quais o modelo deve prestar mais atenção
um homem de ((tuxedo))
- prestará mais atenção ao smoking
um homem de (tuxedo:1.21)
- sintaxe alternativa
selecione o texto e pressione Ctrl+Up
ou Ctrl+Down
(ou Command+Up
ou Command+Down
se você estiver em um MacOS) para ajustar automaticamente a atenção ao texto selecionado (código contribuído por usuário anônimo)
Loopback, execute o processamento img2img várias vezes
Gráfico X/Y/Z, uma forma de desenhar um gráfico tridimensional de imagens com parâmetros diferentes
Inversão Textual
tenha quantos embeddings quiser e use os nomes que quiser para eles
use vários embeddings com diferentes números de vetores por token
funciona com números de ponto flutuante de meia precisão
treinar embeddings em 8GB (também relatos de 6GB funcionando)
Guia Extras com:
GFPGAN, rede neural que corrige rostos
CodeFormer, ferramenta de restauração facial como alternativa ao GFPGAN
RealESRGAN, upscaler de rede neural
ESRGAN, upscaler de rede neural com muitos modelos de terceiros
SwinIR e Swin2SR (veja aqui), upscalers de redes neurais
LDSR, aumento de super resolução de difusão latente
Redimensionar opções de proporção
Seleção do método de amostragem
Ajustar os valores eta do amostrador (multiplicador de ruído)
Opções de configuração de ruído mais avançadas
Interrompa o processamento a qualquer momento
Suporte para placa de vídeo de 4 GB (também há relatos de 2 GB funcionando)
Sementes corretas para lotes
Validação do comprimento do token de prompt ao vivo
Parâmetros de geração
os parâmetros que você usou para gerar imagens são salvos com essa imagem
em pedaços PNG para PNG, em EXIF para JPEG
pode arrastar a imagem para a guia de informações PNG para restaurar os parâmetros de geração e copiá-los automaticamente para a interface do usuário
pode ser desativado nas configurações
arraste e solte uma imagem/parâmetros de texto no promptbox
Botão Ler Parâmetros de Geração, carrega parâmetros no promptbox para a UI
Página de configurações
Executando código python arbitrário da UI (deve ser executado com --allow-code
para ativar)
Dicas de passagem do mouse para a maioria dos elementos da UI
Possível alterar valores padrão/mix/max/step para elementos da UI via configuração de texto
Suporte a ladrilhos, uma caixa de seleção para criar imagens que podem ser colocadas lado a lado como texturas
Barra de progresso e visualização de geração de imagem ao vivo
Pode usar uma rede neural separada para produzir visualizações quase sem VRAM ou requisitos de computação
Prompt negativo, um campo de texto extra que permite listar o que você não deseja ver na imagem gerada
Estilos, uma maneira de salvar parte do prompt e aplicá-los facilmente por meio do menu suspenso posteriormente
Variações, uma forma de gerar a mesma imagem mas com pequenas diferenças
Redimensionamento inicial, uma forma de gerar a mesma imagem, mas com resolução ligeiramente diferente
CLIP interrogator, um botão que tenta adivinhar o prompt de uma imagem
Edição de prompt, uma maneira de mudar o prompt no meio da geração, digamos, para começar a fazer uma melancia e mudar para anime girl no meio do caminho
Processamento em lote, processe um grupo de arquivos usando img2img
Img2img Alternativa, método Euler reverso de controle de atenção cruzada
Highres Fix, uma opção conveniente para produzir imagens de alta resolução com um clique, sem distorções usuais
Recarregando pontos de verificação em tempo real
Checkpoint Merger, uma guia que permite mesclar até 3 pontos de verificação em um
Scripts personalizados com muitas extensões da comunidade
Composable-Diffusion, uma maneira de usar vários prompts ao mesmo tempo
prompts separados usando AND
maiúsculo
também suporta pesos para prompts: a cat :1.2 AND a dog AND a penguin :2.2
Sem limite de tokens para prompts (a difusão estável original permite usar até 75 tokens)
Integração DeepDanbooru, cria tags de estilo danbooru para prompts de anime
xformers, grande aumento de velocidade para placas selecionadas: (adicione --xformers
aos argumentos da linha de comando)
via extensão: guia Histórico: visualize, direcione e exclua imagens convenientemente na interface do usuário
Opção gerar para sempre
Guia Treinamento
opções de hiperredes e incorporações
Pré-processamento de imagens: corte, espelhamento, marcação automática usando BLIP ou deepdanbooru (para anime)
Pular clipe
Hiperredes
Loras (igual a Hypernetworks, mas mais bonita)
Uma UI separada onde você pode escolher, com visualização, quais embeddings, hiperredes ou Loras adicionar ao seu prompt
Pode optar por carregar um VAE diferente na tela de configurações
Tempo estimado de conclusão na barra de progresso
API
Suporte para modelo de pintura dedicado da RunwayML
via extensão: Gradientes Estéticos, uma forma de gerar imagens com uma estética específica usando incorporações de imagens de clipes (implementação de https://github.com/vicgalle/stable-diffusion-aesthetic-gradients)
Suporte ao Stable Diffusion 2.0 - consulte o wiki para obter instruções
Suporte Alt-Diffusion - consulte o wiki para obter instruções
Agora sem letras ruins!
Carregar pontos de verificação no formato de safetensors
Restrição de resolução facilitada: as dimensões da imagem gerada devem ser múltiplas de 8 em vez de 64
Agora com licença!
Reordene os elementos na IU na tela de configurações
Suporte de difusão estável Segmind
Certifique-se de que as dependências necessárias sejam atendidas e siga as instruções disponíveis para:
Nvidia (recomendado)
GPUs AMD.
CPUs Intel, GPUs Intel (integradas e discretas) (página wiki externa)
Ascend NPUs (página wiki externa)
Alternativamente, use serviços online (como Google Colab):
Lista de serviços online
Baixe sd.webui.zip
de v1.0.0-pre e extraia seu conteúdo.
Execute update.bat
.
Execute run.bat
.
Para obter mais detalhes, consulte Instalar e executar em GPUs NVidia
Instale o Python 3.10.6 (a versão mais recente do Python não suporta tocha), marcando "Adicionar Python ao PATH".
Instale o git.
Baixe o repositório stable-diffusion-webui, por exemplo, executando git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
.
Execute webui-user.bat
no Windows Explorer como usuário normal, não administrador.
Instale as dependências:
# Baseado em Debian: sudo apt install wget git python3 python3-venv libgl1 libglib2.0-0# Baseado em Red Hat: sudo dnf install wget git python3 gperftools-libs libglvnd-glx# baseado em openSUSE: sudo zypper install wget git python3 libtcmalloc4 libglvnd# Baseado em Arch:sudo pacman -S wget git python3
Se o seu sistema for muito novo, você precisará instalar python3.11 ou python3.10:
# Ubuntu 24.04sudo add-apt-repository ppa:deadsnakes/ppa atualização do sudo apt sudo apt install python3.11# Manjaro/Archsudo pacman -S yay yay -S python311 # não confunda com pacote python3.11# Somente para 3.11# Em seguida, configure a variável env em launch scriptexport python_cmd="python3.11"# ou em webui-user.shpython_cmd="python3.11"
Navegue até o diretório onde deseja que o webui seja instalado e execute o seguinte comando:
wget -q https://raw.githubusercontent.com/AUTOMATIC1111/stable-diffusion-webui/master/webui.sh
Ou apenas clone o repositório onde quiser:
clone git https://github.com/AUTOMATIC1111/stable-diffusion-webui
Execute webui.sh
.
Verifique webui-user.sh
para opções.
Encontre as instruções aqui.
Veja como adicionar código a este repositório: Contribuindo
A documentação foi movida deste README para o wiki do projeto.
Para fazer com que o Google e outros mecanismos de pesquisa rastreiem o wiki, aqui está um link para o wiki rastreável (não para humanos).
As licenças para o código emprestado podem ser encontradas na tela Settings -> Licenses
e também no arquivo html/licenses.html
.
Difusão estável - https://github.com/Stability-AI/stablediffusion, https://github.com/CompVis/taming-transformers, https://github.com/mcmonkey4eva/sd3-ref
k-difusão - https://github.com/crowsonkb/k-diffusion.git
Spandrel - https://github.com/chaiNNer-org/spandrel implementação
GFPGAN - https://github.com/TencentARC/GFPGAN.git
CodeFormer - https://github.com/sczhou/CodeFormer
ESRGAN - https://github.com/xinntao/ESRGAN
SwinIR - https://github.com/JingyunLiang/SwinIR
Swin2SR - https://github.com/mv-lab/swin2sr
LDSR - https://github.com/Hafiidz/latent-diffusion
MiDaS - https://github.com/isl-org/MiDaS
Ideias para otimizações - https://github.com/basujindal/stable-diffusion
Otimização da camada de atenção cruzada - Doggettx - https://github.com/Doggettx/stable-diffusion, ideia original para edição imediata.
Otimização da camada de atenção cruzada - InvokeAI, lstein - https://github.com/invoke-ai/InvokeAI (originalmente http://github.com/lstein/stable-diffusion)
Otimização da camada de atenção cruzada subquadrática - Alex Birch (Birch-san/diffusers#1), Amin Rezaei (https://github.com/AminRezaei0x443/memory-efficient-attention)
Inversão Textual - Rinon Gal - https://github.com/rinongal/textual_inversion (não estamos usando o código dele, mas estamos usando as ideias dele).
Ideia para upscale SD - https://github.com/jquesnelle/txt2imghd
Geração de ruído para pintura externa do mk2 - https://github.com/parlance-zz/g-diffuser-bot
Idéia do interrogador CLIP e empréstimo de algum código - https://github.com/pharmapsychotic/clip-interrogator
Ideia para difusão composível - https://github.com/energy-based-model/Compositional-Visual-Generation-with-Composable-Diffusion-Models-PyTorch
xformers - https://github.com/facebookresearch/xformers
DeepDanbooru - interrogador para difusores de anime https://github.com/KichangKim/DeepDanbooru
Amostragem na precisão float32 de um UNet float16 - marunine para a ideia, Birch-san para o exemplo de implementação de difusores (https://github.com/Birch-san/diffusers-play/tree/92feee6)
Instrua pix2pix - Tim Brooks (estrela), Aleksander Holynski (estrela), Alexei A. Efros (sem estrela) - https://github.com/timothybrooks/instruct-pix2pix
Conselhos de segurança - RyotaK
Amostrador UniPC - Wenliang Zhao - https://github.com/wl-zhao/UniPC
TAESD - Ollin Boer Bohan - https://github.com/madebyollin/taesd
LyCORIS - KohakuBlueleaf
Reinicie a amostragem - lambertae - https://github.com/Newbeeer/diffusion_restart_sampling
Hipertile - tfernd - https://github.com/tfernd/HyperTile
Script inicial do Gradio - postado no 4chan por um usuário anônimo. Obrigado usuário anônimo.
(Você)