Eine Webschnittstelle für Stable Diffusion, implementiert mit der Gradio-Bibliothek.
Detaillierte Funktionspräsentation mit Bildern:
Ursprüngliche txt2img- und img2img-Modi
Mit einem Klick installieren und Skript ausführen (aber Sie müssen trotzdem Python und Git installieren)
Outpainting
Inpainting
Farbskizze
Eingabeaufforderungsmatrix
Stabile Diffusion im gehobenen Maßstab
Achtung, geben Sie Textteile an, denen das Modell mehr Aufmerksamkeit schenken soll
ein Mann in einem ((tuxedo))
– wird dem Smoking mehr Aufmerksamkeit schenken
ein Mann in einem (tuxedo:1.21)
– alternative Syntax
Wählen Sie Text aus und drücken Sie Ctrl+Up
oder Ctrl+Down
(oder Command+Up
oder Command+Down
, wenn Sie ein MacOS verwenden), um die Aufmerksamkeit automatisch auf den ausgewählten Text zu lenken (von einem anonymen Benutzer beigesteuerter Code).
Loopback, img2img-Verarbeitung mehrmals ausführen
X/Y/Z-Diagramm, eine Möglichkeit, ein dreidimensionales Diagramm von Bildern mit unterschiedlichen Parametern zu zeichnen
Textinversion
Sie können so viele Einbettungen haben, wie Sie möchten, und beliebige Namen dafür verwenden
Verwenden Sie mehrere Einbettungen mit unterschiedlicher Anzahl von Vektoren pro Token
funktioniert mit Gleitkommazahlen halber Genauigkeit
Einbettungen auf 8 GB trainieren (es wird auch berichtet, dass 6 GB funktionieren)
Registerkarte „Extras“ mit:
GFPGAN, neuronales Netzwerk, das Gesichter korrigiert
CodeFormer, Gesichtswiederherstellungstool als Alternative zu GFPGAN
RealESRGAN, Upscaler für neuronale Netze
ESRGAN, Upscaler für neuronale Netze mit vielen Modellen von Drittanbietern
SwinIR und Swin2SR (siehe hier), Upscaler für neuronale Netze
LDSR, Latent Diffusion Super Resolution Upscaling
Optionen zur Größenänderung des Seitenverhältnisses
Auswahl der Probenahmemethode
Passen Sie die Eta-Werte des Samplers an (Rauschmultiplikator).
Erweiterte Optionen für die Geräuscheinstellung
Unterbrechen Sie die Bearbeitung jederzeit
4-GB-Grafikkartenunterstützung (berichtet auch, dass 2 GB funktionieren)
Richtiges Saatgut für Chargen
Live-Prompt-Tokenlängenvalidierung
Generierungsparameter
Parameter, die Sie zum Generieren von Bildern verwendet haben, werden mit diesem Bild gespeichert
in PNG-Blöcken für PNG, in EXIF für JPEG
Sie können das Bild auf die Registerkarte „PNG-Info“ ziehen, um die Generierungsparameter wiederherzustellen und sie automatisch in die Benutzeroberfläche zu kopieren
kann in den Einstellungen deaktiviert werden
Ziehen Sie Bild-/Textparameter per Drag & Drop in die Eingabeaufforderungsbox
Schaltfläche „Generierungsparameter lesen“, lädt Parameter in der Eingabeaufforderungsbox in die Benutzeroberfläche
Einstellungsseite
Ausführen von beliebigem Python-Code über die Benutzeroberfläche (muss zum Aktivieren mit --allow-code
ausgeführt werden)
Mouseover-Hinweise für die meisten UI-Elemente
Es ist möglich, Standard-/Misch-/Maximal-/Schrittwerte für UI-Elemente über die Textkonfiguration zu ändern
Kachelunterstützung, ein Kontrollkästchen zum Erstellen von Bildern, die wie Texturen gekachelt werden können
Fortschrittsbalken und Live-Vorschau der Bildgenerierung
Kann ein separates neuronales Netzwerk verwenden, um Vorschauen nahezu ohne VRAM- oder Rechenaufwand zu erstellen
Negative Eingabeaufforderung, ein zusätzliches Textfeld, in dem Sie angeben können, was Sie im generierten Bild nicht sehen möchten
Stile, eine Möglichkeit, Teile der Eingabeaufforderung zu speichern und sie später einfach per Dropdown anzuwenden
Variationen, eine Möglichkeit, dasselbe Bild mit winzigen Unterschieden zu erzeugen
Größenänderung des Seeds, eine Möglichkeit, dasselbe Bild, aber mit leicht unterschiedlicher Auflösung zu erzeugen
CLIP-Interrogator, eine Schaltfläche, die versucht, eine Eingabeaufforderung anhand eines Bildes zu erraten
Prompt Editing, eine Möglichkeit, Prompt in der mittleren Generation zu ändern, beispielsweise mit der Herstellung einer Wassermelone zu beginnen und auf halbem Weg zu Anime Girl zu wechseln
Stapelverarbeitung: Verarbeiten Sie eine Gruppe von Dateien mit img2img
Img2img Alternative, umgekehrte Euler-Methode zur Queraufmerksamkeitskontrolle
Highres Fix, eine praktische Option zum Erstellen hochauflösender Bilder mit einem Klick ohne übliche Verzerrungen
Kontrollpunkte im Handumdrehen neu laden
Checkpoint Merger, eine Registerkarte, die es Ihnen ermöglicht, bis zu 3 Checkpoints zu einem zusammenzuführen
Benutzerdefinierte Skripte mit vielen Erweiterungen aus der Community
Composable-Diffusion, eine Möglichkeit, mehrere Eingabeaufforderungen gleichzeitig zu verwenden
Trennen Sie Eingabeaufforderungen mithilfe von AND
in Großbuchstaben
Unterstützt auch Gewichte für Eingabeaufforderungen: a cat :1.2 AND a dog AND a penguin :2.2
Kein Token-Limit für Eingabeaufforderungen (mit der ursprünglichen stabilen Diffusion können Sie bis zu 75 Token verwenden)
DeepDanbooru-Integration erstellt Tags im Danbooru-Stil für Anime-Eingabeaufforderungen
xformers, erhebliche Geschwindigkeitssteigerung für ausgewählte Karten: ( --xformers
zu den Befehlszeilenargumenten hinzufügen)
über Erweiterung: Registerkarte „Verlauf“: Bilder bequem in der Benutzeroberfläche anzeigen, verschieben und löschen
Option „Für immer generieren“.
Registerkarte „Training“.
Hypernetzwerke und Einbettungsoptionen
Vorverarbeitung von Bildern: Zuschneiden, Spiegeln, automatisches Taggen mit BLIP oder deepdanbooru (für Anime)
Clip überspringen
Hypernetzwerke
Loras (wie Hypernetworks, aber hübscher)
Eine separate Benutzeroberfläche, in der Sie mit Vorschau auswählen können, welche Einbettungen, Hypernetzwerke oder Loras Sie Ihrer Eingabeaufforderung hinzufügen möchten
Sie können auswählen, ob auf dem Einstellungsbildschirm ein anderes VAE geladen werden soll
Geschätzte Fertigstellungszeit im Fortschrittsbalken
API
Unterstützung für dediziertes Inpainting-Modell von RunwayML
über Erweiterung: Aesthetic Gradients, eine Möglichkeit, Bilder mit einer bestimmten Ästhetik durch eingebettete Clipbilder zu generieren (Implementierung von https://github.com/vicgalle/stable-diffusion-aesthetic-gradients)
Stable Diffusion 2.0-Unterstützung – Anweisungen finden Sie im Wiki
Alt-Diffusion-Unterstützung – Anweisungen finden Sie im Wiki
Jetzt ohne schlechte Briefe!
Laden Sie Prüfpunkte im Safetensors-Format
Vereinfachte Auflösungsbeschränkung: Die Abmessungen des generierten Bildes müssen ein Vielfaches von 8 statt 64 sein
Jetzt mit Lizenz!
Ordnen Sie Elemente in der Benutzeroberfläche über den Einstellungsbildschirm neu an
Segmind Stable Diffusion-Unterstützung
Stellen Sie sicher, dass die erforderlichen Abhängigkeiten erfüllt sind, und befolgen Sie die verfügbaren Anweisungen für:
NVidia (empfohlen)
AMD-GPUs.
Intel-CPUs, Intel-GPUs (sowohl integriert als auch diskret) (externe Wiki-Seite)
Ascend NPUs (externe Wiki-Seite)
Alternativ können Sie Online-Dienste (wie Google Colab) nutzen:
Liste der Online-Dienste
Laden Sie sd.webui.zip
von v1.0.0-pre herunter und extrahieren Sie den Inhalt.
Führen Sie update.bat
aus.
Führen Sie run.bat
aus.
Weitere Einzelheiten finden Sie unter Install-and-Run-on-NVidia-GPUs
Installieren Sie Python 3.10.6 (neuere Version von Python unterstützt Torch nicht) und aktivieren Sie „Python zu PATH hinzufügen“.
Git installieren.
Laden Sie das Stable-Diffusion-Webui-Repository herunter, indem Sie beispielsweise git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
ausführen.
Führen Sie webui-user.bat
im Windows Explorer als normaler Benutzer ohne Administratorrechte aus.
Installieren Sie die Abhängigkeiten:
# Debian-basiert:sudo apt install wget git python3 python3-venv libgl1 libglib2.0-0# Red Hat-basiert:sudo dnf install wget git python3 gperftools-libs libglvnd-glx# openSUSE-basiert:sudo zypper install wget git python3 libtcmalloc4 libglvnd# Arch-based:sudo pacman -S wget git python3
Wenn Ihr System sehr neu ist, müssen Sie Python3.11 oder Python3.10 installieren:
# Ubuntu 24.04sudo add-apt-repository ppa:deadsnakes/ppa Sudo apt-Update sudo apt install python3.11# Manjaro/Archsudo pacman -S juhu yay -S python311 # nicht mit Python3.11-Paket verwechseln# Nur für 3.11# Dann env-Variable im Startskriptexport python_cmd="python3.11"# oder in webui-user.shpython_cmd="python3.11" einrichten
Navigieren Sie zu dem Verzeichnis, in dem das WebUI installiert werden soll, und führen Sie den folgenden Befehl aus:
wget -q https://raw.githubusercontent.com/AUTOMATIC1111/stable-diffusion-webui/master/webui.sh
Oder klonen Sie einfach das Repo, wo immer Sie möchten:
Git-Klon https://github.com/AUTOMATIC1111/stable-diffusion-webui
Führen Sie webui.sh
aus.
Überprüfen Sie webui-user.sh
auf Optionen.
Die Anleitung finden Sie hier.
So fügen Sie diesem Repo Code hinzu: Mitwirken
Die Dokumentation wurde von dieser README-Datei in das Wiki des Projekts verschoben.
Damit Google und andere Suchmaschinen das Wiki crawlen können, finden Sie hier einen Link zum (nicht für Menschen) crawlbaren Wiki.
Lizenzen für geliehenen Code finden Sie im Bildschirm Settings -> Licenses
und auch in der Datei html/licenses.html
.
Stabile Diffusion – https://github.com/Stability-AI/stablediffusion, https://github.com/CompVis/taming-transformers, https://github.com/mcmonkey4eva/sd3-ref
k-Diffusion – https://github.com/crowsonkb/k-diffusion.git
Spandrel – https://github.com/chaiNNer-org/spandrel Implementierung
GFPGAN – https://github.com/TencentARC/GFPGAN.git
CodeFormer – https://github.com/sczhou/CodeFormer
ESRGAN – https://github.com/xinntao/ESRGAN
SwinIR – https://github.com/JingyunLiang/SwinIR
Swin2SR – https://github.com/mv-lab/swin2sr
LDSR – https://github.com/Hafiidz/latent-diffusion
MiDaS – https://github.com/isl-org/MiDaS
Ideen für Optimierungen – https://github.com/basujindal/stable-diffusion
Cross-Attention-Layer-Optimierung – Doggettx – https://github.com/Doggettx/stable-diffusion, originelle Idee für eine schnelle Bearbeitung.
Cross-Attention-Layer-Optimierung – InvokeAI, lstein – https://github.com/invoke-ai/InvokeAI (ursprünglich http://github.com/lstein/stable-diffusion)
Subquadratische Cross-Attention-Layer-Optimierung – Alex Birch (Birch-san/diffusers#1), Amin Rezaei (https://github.com/AminRezaei0x443/memory-efficient-attention)
Textuelle Inversion – Rinon Gal – https://github.com/rinongal/textual_inversion (wir verwenden nicht seinen Code, aber wir verwenden seine Ideen).
Idee für SD-Upscale – https://github.com/jquesnelle/txt2imghd
Geräuscherzeugung für Outpainting mk2 – https://github.com/parlance-zz/g-diffuser-bot
Idee für einen CLIP-Interrogator und Ausleihen von Code – https://github.com/pharmapsychotic/clip-interrogator
Idee für Composable Diffusion – https://github.com/energy-based-model/Compositional-Visual-Generation-with-Composable-Diffusion-Models-PyTorch
xformers – https://github.com/facebookresearch/xformers
DeepDanbooru – Vernehmer für Anime-Diffusoren https://github.com/KichangKim/DeepDanbooru
Sampling in Float32-Präzision aus einem Float16-UNet – Marunine für die Idee, Birch-san für die Beispiel-Diffuser-Implementierung (https://github.com/Birch-san/diffusers-play/tree/92feee6)
Instruct pix2pix – Tim Brooks (Star), Aleksander Holynski (Star), Alexei A. Efros (kein Stern) – https://github.com/timothybrooks/instruct-pix2pix
Sicherheitshinweis – RyotaK
UniPC-Sampler – Wenliang Zhao – https://github.com/wl-zhao/UniPC
TAESD – Ollin Boer Bohan – https://github.com/madebyollin/taesd
LyCORIS - KohakuBlueleaf
Probenahme neu starten – Lambertae – https://github.com/Newbeeer/diffusion_restart_sampling
Hypertile – tfernd – https://github.com/tfernd/HyperTile
Erstes Gradio-Skript – von einem anonymen Benutzer auf 4chan gepostet. Vielen Dank, anonymer Benutzer.
(Du)