Una interfaz web para Stable Diffusion, implementada utilizando la biblioteca Gradio.
Muestra detallada de funciones con imágenes:
Modos txt2img e img2img originales
Instalar y ejecutar el script con un clic (pero aún debes instalar Python y Git)
pintar
en pintura
Boceto en color
Matriz de avisos
Difusión estable de lujo
Atención, especifique partes del texto a las que el modelo debería prestar más atención
un hombre con ((tuxedo))
- prestará más atención al esmoquin
un hombre con esmoquin (tuxedo:1.21)
- sintaxis alternativa
seleccione el texto y presione Ctrl+Up
o Ctrl+Down
(o Command+Up
o Command+Down
si está en un MacOS) para ajustar automáticamente la atención al texto seleccionado (código aportado por un usuario anónimo)
Bucle invertido, ejecute el procesamiento img2img varias veces
Gráfico X/Y/Z, una forma de dibujar un gráfico tridimensional de imágenes con diferentes parámetros
Inversión textual
tenga tantas incrustaciones como desee y use los nombres que desee para ellas
use múltiples incrustaciones con diferentes números de vectores por token
funciona con números de coma flotante de media precisión
incrustaciones de trenes en 8 GB (también informes de 6 GB en funcionamiento)
Pestaña de extras con:
GFPGAN, red neuronal que arregla rostros
CodeFormer, herramienta de restauración facial como alternativa a GFPGAN
RealESRGAN, escalador de redes neuronales
ESRGAN, escalador de redes neuronales con muchos modelos de terceros
SwinIR y Swin2SR (ver aquí), escaladores de redes neuronales
LDSR, ampliación de superresolución por difusión latente
Cambiar el tamaño de las opciones de relación de aspecto
Selección del método de muestreo
Ajustar los valores eta del sampler (multiplicador de ruido)
Opciones de configuración de ruido más avanzadas
Interrumpir el procesamiento en cualquier momento
Compatibilidad con tarjeta de vídeo de 4 GB (también informes de funcionamiento de 2 GB)
Semillas correctas para lotes.
Validación de la longitud del token de solicitud en vivo
Parámetros de generación
Los parámetros que utilizó para generar imágenes se guardan con esa imagen.
en fragmentos PNG para PNG, en EXIF para JPEG
Puede arrastrar la imagen a la pestaña de información PNG para restaurar los parámetros de generación y copiarlos automáticamente en la interfaz de usuario.
se puede desactivar en la configuración
arrastre y suelte una imagen/parámetros de texto en el cuadro de aviso
Botón Leer parámetros de generación, carga los parámetros en el cuadro de aviso en la interfaz de usuario
Página de configuración
Ejecutar código Python arbitrario desde la interfaz de usuario (debe ejecutarse con --allow-code
para habilitarlo)
Sugerencias al pasar el mouse sobre la mayoría de los elementos de la interfaz de usuario
Es posible cambiar los valores predeterminados/mezcla/máximo/paso para elementos de la interfaz de usuario a través de la configuración de texto
Compatibilidad con mosaicos, una casilla de verificación para crear imágenes que se pueden colocar en mosaico como texturas
Barra de progreso y vista previa de generación de imágenes en vivo
Puede utilizar una red neuronal separada para producir vistas previas sin casi ningún requisito de VRAM o computación
Mensaje negativo, un campo de texto adicional que le permite enumerar lo que no desea ver en la imagen generada
Estilos, una forma de guardar parte del mensaje y aplicarlos fácilmente a través del menú desplegable más adelante
Variaciones, una forma de generar la misma imagen pero con pequeñas diferencias
Cambio de tamaño de semillas, una forma de generar la misma imagen pero con una resolución ligeramente diferente
CLIP interrogator, un botón que intenta adivinar el mensaje a partir de una imagen
Edición rápida, una forma de cambiar la generación media, por ejemplo, comenzar a hacer una sandía y cambiar a chica anime a mitad de camino.
Procesamiento por lotes, procesa un grupo de archivos usando img2img
Img2img Método alternativo de Euler inverso para controlar la atención cruzada
Highres Fix, una cómoda opción para producir imágenes de alta resolución con un solo clic y sin las distorsiones habituales
Recarga de puntos de control sobre la marcha
Checkpoint Merger, una pestaña que te permite fusionar hasta 3 puntos de control en uno
Scripts personalizados con muchas extensiones de la comunidad.
Composable-Diffusion, una forma de utilizar múltiples mensajes a la vez
mensajes separados usando mayúsculas AND
también admite pesas para indicaciones: a cat :1.2 AND a dog AND a penguin :2.2
Sin límite de tokens para mensajes (la difusión estable original le permite usar hasta 75 tokens)
Integración de DeepDanbooru, crea etiquetas de estilo danbooru para mensajes de anime
xformers, aumento importante de velocidad para tarjetas seleccionadas: (agregue --xformers
a los argumentos de la línea de comando)
mediante extensión: pestaña Historial: vea, dirija y elimine imágenes cómodamente dentro de la interfaz de usuario
Generar opción para siempre
Pestaña de entrenamiento
Opciones de hiperredes e incrustaciones.
Preprocesamiento de imágenes: recorte, duplicación, etiquetado automático usando BLIP o deepdanbooru (para anime)
Saltar clip
Hiperredes
Loras (igual que Hypernetworks pero más bonito)
Una interfaz de usuario separada donde puede elegir, con vista previa, qué incrustaciones, hiperredes o Loras agregar a su mensaje.
Puede seleccionar cargar un VAE diferente desde la pantalla de configuración
Tiempo estimado de finalización en la barra de progreso
API
Soporte para modelo de pintura dedicado de RunwayML
vía extensión: Aesthetic Gradients, una forma de generar imágenes con una estética específica mediante el uso de incrustaciones de imágenes de clips (implementación de https://github.com/vicgalle/stable-diffusion-aesthetic-gradients)
Compatibilidad con Stable Diffusion 2.0: consulte la wiki para obtener instrucciones
Compatibilidad con difusión alternativa: consulte la wiki para obtener instrucciones
¡Ahora sin malas letras!
Cargar puntos de control en formato de tensores de seguridad.
Restricción de resolución simplificada: las dimensiones de la imagen generada deben ser múltiplos de 8 en lugar de 64
¡Ahora con licencia!
Reordenar elementos en la interfaz de usuario desde la pantalla de configuración
Soporte de difusión estable de Segmind
Asegúrese de que se cumplan las dependencias requeridas y siga las instrucciones disponibles para:
NVidia (recomendado)
GPU AMD.
CPU Intel, GPU Intel (tanto integradas como discretas) (página wiki externa)
Ascend NPU (página wiki externa)
Alternativamente, utilice servicios en línea (como Google Colab):
Lista de servicios en línea
Descargue sd.webui.zip
desde v1.0.0-pre y extraiga su contenido.
Ejecute update.bat
.
Ejecute run.bat
.
Para obtener más detalles, consulte Instalar y ejecutar en GPU NVidia.
Instale Python 3.10.6 (la versión más reciente de Python no es compatible con la antorcha), marcando "Agregar Python a la RUTA".
Instalar git.
Descargue el repositorio stable-diffusion-webui, por ejemplo ejecutando git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
.
Ejecute webui-user.bat
desde el Explorador de Windows como usuario normal, no administrador.
Instale las dependencias:
# Basado en Debian:sudo apt install wget git python3 python3-venv libgl1 libglib2.0-0# Basado en Red Hat:sudo dnf install wget git python3 gperftools-libs libglvnd-glx# basado en openSUSE:sudo zypper install wget git python3 libtcmalloc4 libglvnd# Basado en arco:sudo pacman -S wget git python3
Si su sistema es muy nuevo, necesita instalar python3.11 o python3.10:
# Ubuntu 24.04sudo add-apt-repository ppa:deadsnakes/ppa actualización sudo apta sudo apt install python3.11# Manjaro/Archsudo pacman -S yay yay -S python311 # no confunda con el paquete python3.11# Solo para 3.11# Luego configure la variable env en el script de inicioexport python_cmd="python3.11"# o en webui-user.shpython_cmd="python3.11"
Navegue hasta el directorio en el que desea instalar webui y ejecute el siguiente comando:
wget -q https://raw.githubusercontent.com/AUTOMATIC1111/stable-diffusion-webui/master/webui.sh
O simplemente clona el repositorio donde quieras:
clon de git https://github.com/AUTOMATIC1111/stable-diffusion-webui
Ejecute webui.sh
.
Consulte webui-user.sh
para ver las opciones.
Encuentre las instrucciones aquí.
Aquí se explica cómo agregar código a este repositorio: Contribuyendo
La documentación se movió de este README a la wiki del proyecto.
Con el fin de lograr que Google y otros motores de búsqueda rastreen el wiki, aquí hay un enlace al wiki rastreable (no para humanos).
Las licencias para el código prestado se pueden encontrar en Settings -> Licenses
y también en el archivo html/licenses.html
.
Difusión estable: https://github.com/Stability-AI/stablediffusion, https://github.com/CompVis/taming-transformers, https://github.com/mcmonkey4eva/sd3-ref
k-difusión - https://github.com/crowsonkb/k-diffusion.git
Spandrel: https://github.com/chaiNNer-org/spandrel implementando
GFPGAN-https://github.com/TencentARC/GFPGAN.git
CódigoFormer: https://github.com/sczhou/CodeFormer
ESRGAN-https://github.com/xinntao/ESRGAN
SwinIR-https://github.com/JingyunLiang/SwinIR
Swin2SR-https://github.com/mv-lab/swin2sr
LDSR: https://github.com/Hafiidz/latent-diffusion
MiDaS: https://github.com/isl-org/MiDaS
Ideas para optimizaciones: https://github.com/basujindal/stable-diffusion
Optimización de la capa de atención cruzada - Doggettx - https://github.com/Doggettx/stable-diffusion, idea original para una edición rápida.
Optimización de la capa de atención cruzada: InvokeAI, lstein: https://github.com/invoke-ai/InvokeAI (originalmente http://github.com/lstein/stable-diffusion)
Optimización de la capa de atención cruzada subcuadrática: Alex Birch (Birch-san/diffusers#1), Amin Rezaei (https://github.com/AminRezaei0x443/memory-ficient-attention)
Inversión textual - Rinon Gal - https://github.com/rinongal/textual_inversion (no estamos usando su código, pero sí sus ideas).
Idea para SD de lujo: https://github.com/jquesnelle/txt2imghd
Generación de ruido para pintar mk2 - https://github.com/parlance-zz/g-diffuser-bot
Idea del interrogador CLIP y préstamo de código: https://github.com/pharmapsychotic/clip-interrogator
Idea para difusión componible: https://github.com/energy-based-model/Compositional-Visual-Generation-with-Composable-Diffusion-Models-PyTorch
xformers: https://github.com/facebookresearch/xformers
DeepDanbooru - interrogador para difusores de anime https://github.com/KichangKim/DeepDanbooru
Muestreo con precisión float32 desde un float16 UNet: marunine para la idea, Birch-san para el ejemplo de implementación de difusores (https://github.com/Birch-san/diffusers-play/tree/92feee6)
Instruct pix2pix - Tim Brooks (estrella), Aleksander Holynski (estrella), Alexei A. Efros (sin estrella) - https://github.com/timothybrooks/instruct-pix2pix
Consejos de seguridad - RyotaK
Muestra de UniPC - Wenliang Zhao - https://github.com/wl-zhao/UniPC
TAESD - Ollin Boer Bohan - https://github.com/madebyollin/taesd
LyCORIS - KohakuBlueleaf
Reiniciar muestreo - lambertae - https://github.com/Newbeeer/diffusion_restart_sampling
Hipertilo - tfernd - https://github.com/tfernd/HyperTile
Guión inicial de Gradio: publicado en 4chan por un usuario anónimo. Gracias usuario anónimo.
(Tú)