Веб-интерфейс Stable Diffusion, реализованный с использованием библиотеки Gradio.
Подробная демонстрация функций с изображениями:
Оригинальные режимы txt2img и img2img
Установите и запустите скрипт в один клик (но вам все равно придется установить Python и git)
Перекраска
живопись
Цветной эскиз
Подскажите матрицу
Стабильная диффузия
Внимание, укажите части текста, на которые модель должна обратить больше внимания.
мужчина в ((tuxedo))
- будет уделять больше внимания смокингу
мужчина в (tuxedo:1.21)
— альтернативный синтаксис
выделите текст и нажмите Ctrl+Up
или Ctrl+Down
(или Command+Up
или Command+Down
, если вы используете MacOS), чтобы автоматически настроить внимание к выделенному тексту (код предоставлен анонимным пользователем)
Loopback, запустите обработку img2img несколько раз
График X/Y/Z, способ нарисовать трехмерный график изображений с разными параметрами.
Текстовая инверсия
иметь столько вложений, сколько хотите, и использовать для них любые имена, которые вам нравятся.
использовать несколько вложений с разным количеством векторов на токен
работает с числами с плавающей запятой половинной точности
обучать встраиваниям на 8 ГБ (также сообщается о работе 6 ГБ)
Вкладка «Дополнительно» с:
GFPGAN, нейронная сеть, фиксирующая лица
CodeFormer, инструмент восстановления лица как альтернатива GFPGAN
RealESRGAN, апскейлер нейронных сетей
ESRGAN, масштабатор нейронных сетей с множеством сторонних моделей
SwinIR и Swin2SR (см. здесь), апскейлеры нейронных сетей
LDSR, повышение разрешения сверхразрешения со скрытой диффузией
Изменение размера параметров соотношения сторон
Выбор метода выборки
Отрегулируйте значения этаты сэмплера (множитель шума)
Более расширенные параметры настройки шума
Прерывание обработки в любой момент
Поддержка видеокарт 4 ГБ (также сообщается о работе 2 ГБ)
Правильные семена для партий
Проверка длины токена в реальном времени
Параметры генерации
параметры, которые вы использовали для создания изображений, сохраняются вместе с этим изображением.
в кусках PNG для PNG, в EXIF для JPEG
можно перетащить изображение на информационную вкладку PNG, чтобы восстановить параметры генерации и автоматически скопировать их в пользовательский интерфейс.
можно отключить в настройках
перетащите параметры изображения/текста в окно подсказки
Кнопка «Читать параметры генерации», загружает параметры из поля подсказки в пользовательский интерфейс.
Страница настроек
Запуск произвольного кода Python из пользовательского интерфейса (для включения необходимо запустить с --allow-code
)
Подсказки при наведении курсора мыши для большинства элементов пользовательского интерфейса.
Можно изменить значения по умолчанию/микс/максимум/шаг для элементов пользовательского интерфейса с помощью текстовой конфигурации.
Поддержка мозаики, флажок для создания изображений, которые можно располагать мозаикой, как текстуры.
Индикатор выполнения и предварительный просмотр создания живого изображения
Можно использовать отдельную нейронную сеть для создания предварительного просмотра практически без VRAM или вычислительных требований.
Отрицательная подсказка, дополнительное текстовое поле, позволяющее указать то, что вы не хотите видеть в сгенерированном изображении.
Стили — способ сохранить часть приглашения и легко применить их позже через раскрывающийся список.
Вариации — способ создать одно и то же изображение, но с небольшими отличиями.
Изменение размера начального числа, способ создания того же изображения, но с немного другим разрешением.
Опрашиватель CLIP, кнопка, которая пытается угадать подсказку по изображению.
Оперативное редактирование, способ изменить подсказку среднего поколения, скажем, начать делать арбуз и на полпути переключиться на аниме-девушку.
Пакетная обработка, обработка группы файлов с помощью img2img
Img2img Альтернативный метод обратного Эйлера для управления перекрестным вниманием
Highres Fix — удобная опция для создания изображений высокого разрешения в один клик без привычных искажений.
Перезагрузка контрольных точек на лету
Checkpoint Merger, вкладка, позволяющая объединить до 3-х контрольных точек в одну.
Пользовательские скрипты со множеством расширений от сообщества.
Composable-Diffusion, способ использовать несколько подсказок одновременно
отдельные подсказки, используя заглавные буквы AND
также поддерживает вес подсказок: a cat :1.2 AND a dog AND a penguin :2.2
Нет лимита токенов для подсказок (исходная стабильная версия позволяет использовать до 75 токенов)
Интеграция DeepDanbooru, создает теги стиля danbooru для подсказок аниме.
xformers, значительное увеличение скорости для некоторых карт: (добавьте --xformers
в аргументы командной строки)
через расширение: вкладка «История»: удобно просматривать, направлять и удалять изображения в пользовательском интерфейсе.
Создать вариант навсегда
Вкладка «Обучение»
гиперсети и варианты встраивания
Предварительная обработка изображений: обрезка, зеркальное отображение, автопометка с помощью BLIP или deepdanbooru (для аниме)
Пропуск клипа
Гиперсети
Лорас (то же самое, что Hypernetworks, но более красивое)
Отдельный пользовательский интерфейс, в котором вы можете выбрать с предварительным просмотром, какие встраивания, гиперсети или Loras добавить в вашу подсказку.
Можно выбрать загрузку другого VAE на экране настроек.
Предполагаемое время завершения на индикаторе выполнения
API
Поддержка специальной модели рисования с помощью RunwayML.
через расширение: Aesthetic Gradients, способ создания изображений с определенной эстетикой с помощью встраивания изображений клипов (реализация https://github.com/vicgalle/stable-diffusion-aesthetic-gradients)
Поддержка Stable Diffusion 2.0 — инструкции см. в вики.
Поддержка Alt-Diffusion — инструкции см. в вики.
Теперь без всяких плохих букв!
Загрузка контрольных точек в формате защитных датчиков
Уменьшено ограничение разрешения: размеры создаваемого изображения должны быть кратны 8, а не 64.
Теперь с лицензией!
Изменение порядка элементов в пользовательском интерфейсе на экране настроек.
Поддержка Segmind Stable Diffusion
Убедитесь, что необходимые зависимости соблюдены, и следуйте инструкциям, доступным для:
NVIDIA (рекомендуется)
Графические процессоры AMD.
Процессоры Intel, графические процессоры Intel (как встроенные, так и дискретные) (внешняя вики-страница)
Ascend NPU (внешняя вики-страница)
Альтернативно используйте онлайн-сервисы (например, Google Colab):
Список онлайн-сервисов
Загрузите sd.webui.zip
из версии 1.0.0-pre и извлеките его содержимое.
Запустите update.bat
.
Запустите run.bat
.
Более подробную информацию см. в разделе «Установка и запуск на графических процессорах NVIDIA».
Установите Python 3.10.6 (более новая версия Python не поддерживает Torch), отметив «Добавить Python в PATH».
Установите гит.
Загрузите репозиторий стабильной-диффузии-webui, например, запустив git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
.
Запустите webui-user.bat
из проводника Windows от имени обычного пользователя, не являющегося администратором.
Установите зависимости:
# На основе Debian: sudo apt install wget git python3 python3-venv libgl1 libglib2.0-0# На базе Red Hat: sudo dnf install wget git python3 gperftools-libs libglvnd-glx# На основе openSUSE: sudo zypper install wget git python3 libtcmalloc4 libglvnd# На основе Arch: sudo pacman -S wget git python3
Если ваша система совсем новая, вам необходимо установить python3.11 или python3.10:
# Ubuntu 24.04sudo add-apt-repository ppa:deadsnakes/ppa обновление sudo apt sudo apt install python3.11# Manjaro/Archsudo pacman -S yay yay -S python311 # не путайте с пакетом python3.11# Только для версии 3.11# Затем настройте переменную env в файле запуска scriptexport python_cmd="python3.11"# или в webui-user.shpython_cmd="python3.11"
Перейдите в каталог, в который вы хотите установить webui, и выполните следующую команду:
wget -q https://raw.githubusercontent.com/AUTOMATIC1111/stable-diffusion-webui/master/webui.sh
Или просто клонируйте репо куда хотите:
git-клон https://github.com/AUTOMATIC1111/stable-diffusion-webui
Запустите webui.sh
.
Проверьте webui-user.sh
на наличие опций.
Инструкции найдите здесь.
Вот как добавить код в этот репозиторий:
Документация была перенесена из этого README в вики проекта.
Чтобы заставить Google и другие поисковые системы сканировать вики, вот ссылка на сканируемую вики (не для людей).
Лицензии на заимствованный код можно найти на экране Settings -> Licenses
, а также в файле html/licenses.html
.
Стабильная диффузия — https://github.com/Stability-AI/stablediffusion, https://github.com/CompVis/taming-transformers, https://github.com/mcmonkey4eva/sd3-ref
k-диффузия - https://github.com/crowsonkb/k-diffusion.git
Spandrel - https://github.com/chaiNNer-org/spandrel реализация
ГФПГАН — https://github.com/TencentARC/GFPGAN.git
CodeFormer — https://github.com/sczhou/CodeFormer
ЭСРГАН - https://github.com/xinntao/ESRGAN
SwinIR — https://github.com/JingyunLiang/SwinIR
Swin2SR - https://github.com/mv-lab/swin2sr
ЛДСР — https://github.com/Hafiidz/latent-diffusion
МиДаС - https://github.com/isl-org/MiDaS
Идеи по оптимизации - https://github.com/basujindal/stable-diffusion
Оптимизация уровня перекрестного внимания — Doggettx — https://github.com/Doggettx/stable-diffusion, оригинальная идея для быстрого редактирования.
Оптимизация уровня перекрестного внимания — InvokeAI, lstein — https://github.com/invoke-ai/InvokeAI (первоначально http://github.com/lstein/stable-diffusion)
Оптимизация субквадратичного слоя перекрестного внимания — Алекс Берч (Birch-san/diffusers#1), Амин Резаи (https://github.com/AminRezaei0x443/memory-efficient-attention)
Текстовая инверсия — Ринон Гал — https://github.com/rinongal/textual_inversion (мы не используем его код, но используем его идеи).
Идея для повышения качества SD - https://github.com/jquesnelle/txt2imghd
Генерация шума для перекраски mk2 - https://github.com/parlance-zz/g-diffuser-bot
Идея опросчика CLIP и заимствование кода - https://github.com/pharmapsychotic/clip-interrogator
Идея для составной диффузии - https://github.com/energy-based-model/Compositional-Visual-Generation-with-Composable-Diffusion-Models-PyTorch
xformers - https://github.com/facebookresearch/xformers
DeepDanbooru - запросчик для аниме диффузоров https://github.com/KichangKim/DeepDanbooru
Выборка с точностью float32 из UNet float16 — marunine за идею, Берч-сан за пример реализации Diffusers (https://github.com/Birch-san/diffusers-play/tree/92feee6)
Instruct pix2pix — Тим Брукс (звезда), Александр Холинский (звезда), Алексей А. Эфрос (без звезды) — https://github.com/timothybrooks/instruct-pix2pix
Советы по безопасности - RyotaK
Сэмплер UniPC — Вэньлян Чжао — https://github.com/wl-zhao/UniPC
TAESD — Оллин Бур Бохан — https://github.com/madebyollin/taesd
LyCORIS - KohakuBlueleaf
Перезапустить выборку - lambertae - https://github.com/Newbeeer/diffusion_restart_sampling
Гипертайл — tfernd — https://github.com/tfernd/HyperTile
Исходный скрипт Gradio — опубликован на 4chan анонимным пользователем. Спасибо анонимному пользователю.
(Ты)