StableDiffusionEndToEndGuide下载 - StableDiffusionEndToEndGuide源码下载

StableDiffusionEndToEndGuide

其他源码

1.0.0

下载

稳定扩散端到端指南 - 从菜鸟到专家

我开始对使用 SD 生成军事应用图像感兴趣。大部分资源取自 4chan 的 NSFW 版块，因为 anons 使用 SD 制作无尽。有趣的是，规范的 SD WebUI 具有动漫/无尽图像板的内置功能...DALL-E 之后 SD 的第一个用例就是生成动漫女孩，因此跳转到无尽并不奇怪。

无论如何，这些怪人的技术适用于各种应用，尤其是 LoRA，它就像模型微调器。这个想法是与特定的 LoRA（例如，军用车辆、飞机、武器等）合作，生成用于训练视觉模型的合成图像数据。训练新的、有用的 LoRA 也很有趣。稍后的内容可能包括针对扰动进行修复。

免责声明和来源

Every link here may contain NSFW content, as most of the cutting-edge work on SD and LoRAs is with porn or hentai. So, please be wary when you are working with these resources. ALSO, Rentry.org pages are the main resources linked to in this guide. If any of the rentry pages do not work, change the .org to .co and the link should work. Otherwise, use the Wayback machine.

-TP

和它一起玩吧！

您实际上可以用 SD 做什么？ Huggingface 和其他一些公司在浏览器中为您提供了一些应用程序。和他们一起玩，看看它们的威力！在本指南中我们要做的是获得完整的、可扩展的 WebUI，以便我们可以做任何我们想做的事情。

Huggingface 文本到图像 SD Playground
Dreamstudio 文本到图像 SD 应用程序
Dezgo 文本到图像 SD 应用程序
Huggingface 图像到图像 SD 游乐场
Huggingface 绘画游乐场

WebUI 基础知识
1. 设置本地 GPU 使用率
  1. Linux设置
2. 更深入
  1. 提示
3. 新颖的AI模型
4. 洛拉
5. 玩转模型
6. VAE
7. 把它们放在一起
  1. 一般 SD 流程
  2. 保存提示
  3. txt2img 设置
  4. 重新生成之前生成的图像
  5. 排除错误
8. 变得舒适
9. 测试
网络用户界面高级
1. 提示编辑
2. 变形金刚
3. 图像2图像
4. 修复
5. 附加功能
6. 控制网
7. 制作新东西（WIP）
  1. 检查点合并
  2. 训练 LoRA
  3. 训练新模型
Google Colab 设置（WIP）
中途
1. MJ参数
2. MJ 高级提示
梦想工作室（WIP）
稳定部落（WIP）
梦想展位 (WIP)
视频扩散（WIP）

WebUI 基础知识

进入这个领域有点令人畏惧……但 4channers 做得很好，让这个变得平易近人。以下是我采取的最简单的步骤。您的目的是让 Stable Diffusion WebUI（使用 Gradio 构建）在本地运行，以便您可以开始提示和制作图像。

设置本地 GPU 使用率

稍后我们将进行 Google Colab Pro 设置，这样我们就可以在任何我们想要的任何设备上运行 SD；但首先，让我们在 PC 上设置 WebUI。您需要 16GB RAM、具有 2GB VRAM 的 GPU、Windows 7+ 和 20+GB 磁盘空间。

完成启动设置指南
- 我按照这个进行到第 7 步，之后就进入了无尽的内容
- 第 3 步平均需要 15-45 分钟的互联网速度，因为每个模型都有 5+ GB
- 第 7 步可能需要半个小时以上，并且可能在 CLI 中显得“卡住”
- 在步骤 3 中，我下载了 SD1.5，而不是 2.x 版本，因为 1.5 会产生更好的结果
- CivitAI拥有所有SD模型；它类似于 HuggingFace，但专门针对 SD
验证 WebUI 是否正常工作
1. 完成后复制 CLI 输出的 URL，例如127.0.0.1:7860 （不要使用 Ctrl + C，因为此命令可以关闭 CLI）
2. 粘贴到浏览器中，瞧；尝试一下提示，你就可以开始比赛了
3. 生成图像时会自动保存到stable-diffusion-webuioutputstxt2img-images<date>
请记住，要更新，只需在 stable-diffusion-webui 文件夹中打开 CLI 并输入命令git pull

Linux设置

如果您使用的是 Windows，请完全忽略这一点。我也设法让它在 Linux 上运行，尽管它有点复杂。我开始遵循这个指南，但它写得相当糟糕，所以下面是我让它在 Linux 中运行的步骤。我使用的是 Linux Mint 20，它是 Ubuntu 20 发行版。

首先克隆 webui 存储库： git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
获取 SD 模型（例如 SD 1.5，如上一节所述）
将模型ckpt文件放入stable-diffusion-webui/models/Stable-diffusion
下载 Python（如果您还没有）： sudo apt install python3 python3-pip python3-virtualenv wget git
而且WebUI非常特殊，所以我们需要安装Conda，一个虚拟环境管理器，才能在以下内部工作：

 wget https://repo.anaconda.com/miniconda/Minconda3-latest-Linux-x86_64.sh
chmod +x Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh

现在创建环境： conda create --name sdwebui python=3.10.6
激活环境： conda activate sdwebui
导航到您的 WebUI 文件夹并输入./webui.sh
它应该执行一段时间，直到您收到有关无法访问 CUDA/GPU 的错误...这很好，因为这是我们的下一步
首先擦除所有现有的 Nvidia 驱动程序：

 sudo apt update
sudo apt purge *nvidia*

现在，按照本指南中的一些内容，找出您的 Linux 机器拥有的 GPU（最简单的方法是打开驱动程序管理器应用程序，您的 GPU 将被列出；但是有十几种方法，只需 Google 即可）
进入这个页面，点击Linux x86_64下的“最新新功能分支”（对我来说，是530.xx.xx）
单击“支持的产品”选项卡并按 Ctrl + F 查找您的 GPU；如果列出，则继续，否则退出并尝试“最新生产分支版本”；记下数字，例如 530
在终端中，键入： sudo add-apt-repository ppa:graphics-drivers/ppa
使用sudo apt-get update更新
启动驱动程序管理器应用程序，您应该会看到它们的列表；不要选择推荐的驱动程序（例如，nvidia-driver-530-open），而是选择之前的驱动程序（例如，nvidia-driver-530），然后应用更改；或者，使用sudo apt-get install nvidia-driver-530将其安装在终端中
此时，您应该会通过 CLI 看到有关安全启动的弹出窗口，要求您输入 8 位密码：设置并记下该密码
重新启动你的电脑，在加密/用户登录之前，你应该看到一个类似 BIOS 的屏幕（我是凭记忆写的），其中有一个输入 MOK 密钥的选项；点击它并输入密码，然后提交并启动；这里有一些信息
像平常一样登录并输入命令nvidia-smi ；如果成功，它应该打印一个表格；如果没有，它会说“无法连接到 GPU；请确保安装了最新的驱动程序”
现在安装 CUDA（此处的最后一个命令应打印有关新安装的 CUDA 的一些信息）；从本指南：

 sudo apt update
sudo apt install apt-transport-https ca-certificates gnupg
sudo apt install nvidia-cuda-toolkit
nvcc-version

现在返回并执行步骤 7-9；如果您收到此消息“错误：无法激活 python venv，正在中止...”，请转到下一步（否则，您将开始比赛，并将像平常一样从 CLI 复制 IP 地址，然后可以开始玩 SD）
这个 Github 问题对这个 venv 问题有一些故障排除...对我来说，有效的是运行

 python3 -c 'import venv'
python3 -m venv venv/

然后转到/stable-diffusion-webui文件夹并运行：

 rm -rf venv/
python3 -m venv venv/

在那之后，它对我有用。

更深入

阅读提示技巧，因为有很多东西需要了解（例如，积极提示与消极提示、采样步骤、采样方法等）
- OpenArt 提示手册指南
- 权威的 SD 提示指南
- 简洁的提示指南
- 4chan 提示技巧 (NSFW)
- 提示和图像的集合
- 分步动漫女孩提示指南
阅读一般 SD 知识：
- 精液稳定扩散出版物
- CompVis / Stability AI Github（原始 SD 模型的主页）
- 稳定扩散纲要（良好的外部资源）
- 稳定的扩散链接中心（令人难以置信的 4chan 资源）
- 稳定扩散金矿
- 简化的 SD 金矿
- 随机/杂项。标清链接
- 常见问题解答（NSFW）
- 另一个常见问题解答
加入稳定扩散的不和谐
及时了解稳定扩散新闻
- 您是否知道，截至 2023 年 3 月，可以使用 1.7B 参数的文本到视频扩散模型？
在 WebUI 中乱搞，尝试不同的模型、设置等。

提示

提示中的单词顺序会产生影响：较早的单词优先。一个好的提示的一般结构，来自这里：

<general positives> <descriptors of subject> <descriptors of background> <post-processing, camera, etc.>

另一个很好的指南说提示应该遵循以下结构：

<subject> <medium> <style> <artist> <website> <resolution> <additional details> <color> <lighting>

关于提示工程 txt2img 模型的开创性论文，请参见此处。有关 LLM 提示的权威资源，请点击此处。

无论您提示什么，请尝试遵循某种结构，以便您的流程是可复制的。以下是必要的提示语法元素：

() = x1.05 修饰符
[] = /1.05 修饰语
（字：1.05）==（字）
（字：1.1025）==（（字））
（字：.952）== [字]
（字：.907）== [[字]]
AND 关键字允许您同时提示两个单独的提示以将它们合并；很好，这样东西就不会在潜在空间中粉碎在一起
- 例如， 1girl standing on grass in front of castle AND castle in background

新颖的AI模型

默认模型非常简洁，但正如历史上通常的情况一样，性驱动了大多数事情。 NovelAI（NAI）是一家专注于动漫的 SD 内容生成服务，其主要模型被泄露。您看到的大多数 SD 生成的动漫男女图像（无论是否是 NSFW）都来自这个泄露的模型。

无论如何，它确实非常擅长生成人物，并且您将玩合并的大多数模型或 LoRA 都与它兼容，因为它们是在动漫图像上进行训练的。此外，人类还提供了一个非常好的起始用例，可以精确调整您想要用于专业目的的 LoRA。您将需要解决很多问题，并且大多数指南都是针对女性图像的。稍后我们将介绍变量自动编码器（VAE），它为模型带来了真正的真实感。

遵循NovelAI Speedrun 指南
- 您需要下载泄露的模型或在其他地方找到它
将文件放入 WebUI 文件夹stable-diffusion-webuimodelsStable-diffusion并选择其中的模型后，您应该等待几分钟，CLI 会加载 VAE 权重
- 如果您在这里遇到问题，请从模型所在的文件夹中复制 config.yaml 文件并遵循相同的命名方案（如本指南中所示）
这很重要...准确地重新创建 Asuka 图像，如果不匹配，请参阅故障排除指南
寻找新的 SD 模型和 LoRA
- 城市人工智能
- 抱脸
- 可持续发展目标模型
- SDG 型号母负载 (NSFW)
- SDG LoRA 母负载 (NSFW)
- 许多流行模型（也是之前的提示指南）（NSFW）

洛拉

低秩适应 (LoRA) 允许对给定模型进行微调。有关 LoRA 的更多信息请参见此处。在WebUI中，您可以将LoRA添加到模型中，就像锦上添花一样。训练新的 LoRA 也非常容易。还有其他“祖先”的微调方法（例如文本反转和超网络），但 LoRA 是最先进的。

ZTZ99A坦克 - LoRA军用坦克（一种特定坦克）
战斗机 - LoRA 战斗机
epi_noiseoffset - LoRA 使图像流行，增加对比度

我将在整个指南中使用 LoRA 坦克。请注意，这不是一个很好的 LoRA，因为它适用于动漫风格的图像，但玩起来还是不错的。

按照此快速指南安装扩展
您现在应该在用户界面中看到“其他网络”部分
将您的 LoRA 放入stable-diffusion-webuiextensionssd-webui-additional-networksmodelslora
选择并开始
- 确保选中“启用”
- 只需知道您下载的任何 LoRA 可能都有描述如何使用它的信息...例如“使用关键字 Tank”或其他内容；确保无论您从哪里下载它（例如 CivitAI），您都阅读了它的描述

玩转模型

基于上一节...不同的模型有不同的训练数据和训练关键字...因此在某些模型上使用 booru 标签效果不太好。以下是我玩过的一些模型以及它们的“说明”。

SDG Model Motherload，用于获取大部分型号，我只是在这里总结一下说明，以供快速参考；大多数模型都是针对真实色情的，我专注于现实的模型。点击链接查看示例提示、图像以及使用它们的详细说明。

默认 SD 模型（1.5，来自设置步骤；您可以使用 SD 的 2.x 版本，但坦率地说，它们很糟糕）
NovelAI 模型（来自第一个指南）
Anything v3 - 通用动漫模型
Dreamshaper - 现实主义、多用途
刻意——现实主义、幻想、绘画、风景
永无休止的梦想——现实主义、幻想、对人和动物都有好处
- 使用 booru 标签系统
Epic Diffusion - 超现实主义，旨在取代原始 SD
AbyssOrangeMix (AOM) - 动漫，现实主义，艺术，绘画，非常常见，适合测试
Kotosmix - 通用、现实主义、动漫、风景、人物、DPM++ 2M Karras 采样器推荐

CivitAI 用于获取所有其他内容。您需要注册一个帐户，否则您将无法看到 NSFW 的物品，包括武器和军事装备。在 CivitAI 上，一些模型（检查点）包含 VAE；如果有说明，请也下载它并将其放在模型旁边。

ChilloutMix - 超现实主义、肖像、最受欢迎的之一
Protogen x3.4 - 超现实主义
- 使用触发词：modelshoot风格、analog风格、mdjrny-v4-风格、nousr机器人
梦幻照片级2.0——超写实
- 使用触发词：真实感
SPYBG 数字艺术家工具包 - 现实主义、概念艺术
- 使用触发词：tk-char、tk-env

VAE

可变自动编码器使图像看起来更好、更清晰、更少过曝。有些还修复手和脸。但这主要是饱和度和阴影的问题。在这里和这里（NSFW）进行了解释。常用的是NovelAI / Anything VAE。它基本上是模型的附加组件，就像 LoRA 一样。

在 VAE 列表中查找 VAE：

NAI / 任何东西 - 用于动漫模型
- 放入models文件夹下默认自带NAI模型
SD 1.5 - 适用于真实模型

下载一个VAE
按照指南的快速部分在 WebUI 中设置 VAE
- 确保将它们放在stable-diffusion-webuimodelsVAE中
尝试使用和不使用 VAE 来制作图像，看看差异

把它们放在一起

以下是我一路上学到的一些一般性注释和有用的东西，不一定符合本指南的时间顺序。

一般 SD 流程

一个好的学习方法是在 CivitAI、AIbooru 或其他 SD 网站（4chan、Reddit 等）上浏览很酷的图像，打开你喜欢的并将生成参数复制到 WebUI 中。全面披露：准确地重新创建图像并不总是可能的，如此处所述。但通常你可以非常接近。要真正发挥作用，请将 CFG 调低，这样模型就可以变得更有创意。尝试分批次，然后离开电脑，回到批次进行挑选。

WebUI工作流程的一般流程是：

find/pick models/LoRAs -> txt2img (repeat, change params, etc.) -> img2img -> inpainting -> extra ->

txt2img - 提示并获取图像
img2img - 编辑图像并生成相似的图像
修复 - 编辑部分图像（稍后讨论）
额外 - 最终图像编辑（稍后讨论）

保存提示

有时您想返回提示而不粘贴图像或从头开始编写它们。您可以保存提示以便在 WebUI 中重复使用它们。

写下积极和/或消极的提示
在“生成”按钮下，单击右侧的按钮保存您的“样式”
输入名称并保存
随时通过单击“样式”下拉列表进行选择

txt2img 设置

本节或多或少是本指南信息的摘要。

更多的采样步骤通常意味着更高的准确性（除了“a”采样器，例如 Euler a，它经常变化）
打开和关闭此功能；一般来说，打开后，它真的能让脸看起来很好看
高分辨率。修复适用于 512x512 以上的图像；如果图像中有多个人，则很有用
CFG 最好选择中低值，例如 5-10

重新生成之前生成的图像

使用已存在的 SD 生成的图像进行工作；也许有人将其发送给您，或者您想重新创建一个您制作的：

在 WebUI 中，转到 PNG 信息选项卡
将您感兴趣的图像拖放到 UI 中
- 它们保存在stable-diffusion-webuioutputstxt2img-images<date>中
使用的参数见右侧
- 之所以有效，是因为 PNG 可以存储元数据
您可以使用相应的按钮将其直接发送到txt2img页面
- 可能需要来回检查以确保模型、VAE 和其他参数正确自动填充

请注意，某些网站在上传图像时会删除 PNG 元数据（例如 4chan），因此请查找完整图像的 URL 或使用保留 SD 元数据的网站，例如 CivitAI 或 AIbooru。

排除错误

我时不时地犯一些错误。大多数内存不足 (VRAM) 错误可通过降低某些参数的值来修复。有时会恢复面孔和员工。修复设置可能会导致此问题。在文件stable-diffusion-webuiwebui-user.bat中，在set COMMANDLINE_ARGS=行上，您可以放置一些修复常见错误的标志。

NaN 错误，大意是“某个 VAE 产生了 NaN 某事”，添加参数--disable-nan-check
如果你得到黑色图像，请添加--no-half
如果您的 VRAM 持续不足，请添加--medvram或对于土豆计算机，添加--lowvram
面部恢复 Codeformer 修复此处（如果确实损坏，请先尝试重置您的互联网）
模型加载缓慢（当切换到新模型时）可能是因为如果配置不正确，.safetensors 文件加载缓慢。这个线程讨论了它。

一个非常常见的问题源于 Python 版本或 Torch 版本不正确。您将收到诸如“无法安装 Torch”或“Torch 找不到 GPU”之类的错误。最简单的修复是：

卸载您已更新的任何 Python 版本，因为 SD WebUI 需要 3.10.6（我使用过 3.11.5 并忽略了启动错误，但 3.10.6 似乎效果最好）（如果您也可以使用版本管理器）足够先进）
安装 Python 3.10.6，确保将其添加到您的 PATH（ Python文件夹和Python/Scripts文件夹）
删除stable-diffusion-webui文件夹中的venv文件夹
运行stable-diffusion-webuiwebui-user.bat并让它正确重新构建 venv
享受

所有命令行参数都可以在这里找到。

变得舒适

一些扩展可以让 WebUI 更好地使用。获取 Github 链接，转到“扩展”选项卡，从 URL 安装；或者，在“扩展”选项卡中，单击“可用”，然后单击“加载自”，您可以在本地浏览扩展，这反映了扩展 Github wiki。

标签完成器 - 在您键入时推荐并自动完成 booru 标签
稳定的扩散 Web UI 状态 - 即使重新启动后也保留 UI 状态
测试我的提示 - 您可以运行该脚本来从提示中删除单个单词，以查看它如何影响图像生成
模型关键字 - 自动填充与某些模型和 LoRA 相关的关键字，维护良好且截至 2023 年 4 月是最新的
NSFW Checker - 涂黑 NSFW 图像；如果您在办公室工作，这很有用，因为很多好的模型都允许 NSFW 内容，而您可能不想在工作中看到它
- 请注意：此扩展可能会通过屏蔽 NSFW 图像（不是暂时的，它实际上输出黑色图像）来搞乱修复甚至生成，因此请确保根据需要将其关闭
Gelbooru Prompt - 使用其哈希从任何 Gelbooru 图像中提取标签并创建自动提示
booru2prompt - 与 Gelboru Prompt 类似，但功能更多一些
动态提示 - 用于提示生成的模板语言，允许您运行随机或组合提示来生成各种图像（使用通配符）
- 这里描述了更多
模型工具包 - 流行的扩展，可帮助您管理、编辑和创建模型
模型转换器 - 当您训练自己的模型时，可用于转换模型、更改精度等

测试

现在您已经有了一些模型、LoRA 和提示...您如何进行测试以了解哪种效果最好？在“其他网络”窗格下方，有一个“脚本”下拉列表。在这里，单击 X/Y/Z 图。在X类型中，选择Checkpoint name；在 X 值中，单击右侧的按钮以粘贴所有模型。在 Y 类型中，尝试 VAE，或者种子，或者 CFG 规模。无论您选择什么属性，粘贴（或输入）您想要绘制图表的值。例如，如果您有 5 个模型和 5 个 VAE，您将创建一个包含 25 个图像的网格，比较每个模型与每个 VAE 的输出方式。这是非常通用的，可以帮助您决定使用什么。请注意，如果您的 X 或 Y 轴是 VAE 模型，则必须为每个组合加载模型或 VAE 权重，因此可能需要一段时间。

可以在这里找到关于 SD 比较的非常好的资源 (NSFW)。有很多链接可供关注。您可以开始了解各种模型、VAE、LoRA、参数值等如何影响图像生成。

我采用了这里的测试提示，并使用 LoRA 坦克制作了这个 X/Y 网格。您可以看到各种模型和采样器如何相互配合。从这个测试中，我们可以评估：

ChilloutMix、Deliberate、Dreamlike Photoreal 和 Epic Diffusion 模型似乎可以生成最“真实”的坦克图像
- 在后来的独立测试中，发现 Protogen X34 Photorealism 和 SpyBGs Toolkit 在坦克方面也非常出色
这里最有前途的采样器似乎是 DPM++ SDE 或任何 Karras 采样器。

下面给出了每一张坦克图像所使用的确切参数（不包括模型或采样器）（同样，取自此处）：

正面提示：坦克，bf2042，最佳质量，杰作，超高分辨率，（逼真：1.4），详细的皮肤，电影灯光，电影高度详细，色彩丰富，现代照片，战场上的一群士兵，战场爆炸无处不在，喷气式战斗机直升机在天上飞，两辆坦克在地上，在沙漠地区，建筑物着火，背景是一辆废弃的军用装甲车
负面提示：裸体、（最差质量：2）、（低质量：2）、（正常质量：2）、低分辨率、不良解剖结构、不良手、正常质量、（（单色））、（（灰度））、折叠眼影、多次眉毛、粉红色头发、乳房上的洞、ng_deepnegative_v1_75t、nsfw、乳头、额外的手指、（（额外的手臂））、（额外腿）、变异手、（融合手指）、（手指太多）、（长脖子：1.3）
步数：22
CFG 规模：7.5
种子号：1656460887
尺寸：480x480
剪辑跳过：2
AddNet 启用：True、AddNet 模块 1：LoRA、AddNet 模型 1：ztz99ATank_ztz99ATank(82a1a1085b2b)、AddNet 权重 A 1:1、AddNet 权重 B 1:1

网络用户界面高级

在本节中，您可以在熟悉使用 WebUI 的 txt2image 选项卡中的模型、LoRA、VAE、提示、参数、脚本和扩展后可以执行的更高级操作。

提示编辑

也称为快速混合。提示编辑允许您让模型更改指定步骤的提示。下图取自 4chan 帖子并描述了该技术。例如，如本指南所述，提示编辑可用于混合面部。

变形金刚

Xformers，或交叉注意层。一种在 Nvidia GPU 上加速图像生成（以秒/迭代或 s/it 为单位）的方法，可以降低 VRAM 使用率，但会导致不确定性。仅当您拥有强大的 GPU 时才考虑这一点；事实上，您需要一台 Quadro。

图像2图像

不太常用，有点令人困惑的选项卡。可用于生成给定草图的图像，例如 Huggingface Image to Image SD Playground 中。该选项卡有一个子选项卡“修复”，这是下一节的主题，也是 WebUI 的一项非常重要的功能。虽然您可以使用本节来生成您已经制作的更改后的图像（输出到stable-diffusion-webuioutputsimg2img-images ），但该功能对我来说很不稳定......它似乎使用了大量的内存并且我几乎无法让它工作。转到下面的下一部分。

修复

这就是内容创建者或对图像扰动感兴趣的人的力量所在。输出位于stable-diffusion-webuioutputsimg2img-images中。

修复和修复指南
4chan 修复 (NSFW)
权威的修复指南

抓取一张您喜欢的图像，但它并不完美，有些地方不对劲 - 需要调整
- 或者生成一个并单击“发送到修复”（所有设置将自动填充）
您现在位于 img2img -> inpaint 子选项卡中
（用鼠标）在图像上画出您要更改的确切位置
将遮罩模式设置为“修复遮罩”，遮罩内容设置为“原始”，修复区域设置为“仅遮罩”
在上面的提示区域中，编写新的提示以调整图像中的该点；如果您愿意，可以做一个否定提示
生成图像（理想情况下，批量生成 4 个左右）
无论您喜欢哪一个，请单击发送以修复并迭代，直到获得完成的图像

外画

绘制是一个相当复杂的语义过程。外画可以让您拍摄图像并将其扩展任意多次，本质上是增加其边界。此处描述了该过程。您一次只能将图像扩展 64 像素。有两个用于此目的的 UI 工具（我可以找到）：

Alpha Canvas（作为扩展/脚本内置到 WebUI 中）
Hua（用于修复/修复的网络应用程序）

附加功能

此 WebUI 选项卡专门用于升级。如果您获得了真正喜欢的图像，可以在工作流程结束时在此处对其进行升级。升级后的图像存储在stable-diffusion-webuioutputsextras-images中。在 txt2img 选项卡中生成期间，与使用更强大的放大程序进行放大相关的一些内存问题（例如，4x+ 的图像）不会在这里发生，因为您没有生成新图像，而只是放大静态图像。

控制网

理解 ControlNet 功能的最佳方法就像是说“类固醇修复”。你给它一个输入图像（SD 生成的或非 SD 生成的），它可以修改整个图像。 ControlNet 也可以实现姿势。您可以为一个人提供一个参考姿势，并根据您的典型提示生成相应的图像。这里是了解 ControlNet 的良好开端。

在 WebUI 中安装 ControlNet 扩展 sd-webui-controlnet
- 确保通过单击设置选项卡中的“重新加载 UI”按钮来重新加载 UI
验证 ControlNet 按钮现在位于 txt2img（和 img2img）选项卡中，位于其他网络（放置 LoRA 的位置）下方
激活多个 ControlNet 模型：设置 -> ControlNet -> Mutli ControlNet 滑块 -> 2+
- 重新加载 UI，在 ControlNet 区域中您应该看到多个模型选项卡
- 您可以组合 ControlNet（例如 Canny 和 OpenPose），就像使用多个 LoRA 一样
获取 ControlNet 模型
- Canny 模型是边缘检测模型；图像被转换为黑白边缘图像，其中边缘大致告诉 SD，您的图像会是什么样子
- OpenPose 模型拍摄人的图像并将其转换为姿势模型以在后续图像中使用
- 还有很多其他模型可以在那里进行研究
让我们来看看 Canny 和 OpenPose 模型
将它们放入stable-diffusion-webuiextensionssd-webui-controlnetmodels
获取您感兴趣的任何图像，或生成新图像；在这里，我将使用我之前生成的坦克图像
txt2img中的设置：采样方法“DDIM”，采样步长20，宽度/高度与您选择的图像相同
ControlNet 选项卡中的设置：选中启用、预处理器“Canny”、模型“control_canny-fp16”、画布宽度/高度与所选图像相同（所有其他设置默认）
修改提示并点击生成；我尝试将坦克图像转换为火星上的图像
- 正面提示是：火星场景、外太空、太空、宇宙、（（星系空间背景））、星星、月球基地、未来派、黑色背景、黑暗背景、天空中的星星、（夜间）红沙、（（星星中的星星）背景）），坦克，bf2042，最佳质量，杰作，超高分辨率，（逼真：1.4），详细的皮肤，电影灯光，电影高度详细，色彩丰富，现代照片，战场上的一群士兵，战场爆炸无处不在，喷气式战斗机和直升机在天空中飞行，地面上有两辆坦克，在沙漠地区，建筑物着火，背景中一辆废弃的军用装甲车，树木，森林，天空
去抓取一张有人物的图像，您可以同时使用 Control Model - 0 中的 Canny 模型和 Control Model - 1 中的 OpenPose 模型来真正享受其中的乐趣
再次观看此视频，深入了解 Canny 和 OpenPose

制作新东西

这一切都很好，但有时您需要更好的模型或 LoRA 来实现专业用例。由于大多数 SD 内容实际上是为了生成女性或色情内容，因此可能需要训练特定模型和 LoRA。

在这里浏览每个感兴趣的主题
- 训练 LoRA
- LoRA火车
- 懒惰 LoRA 培训指南
- 来自 CivitAI 的良好 LoRA 培训指南
- 另一篇 LoRA 培训指南
- 更多一般 LoRA 信息
- 合并模型
- 混合模型

训练新模型

请参阅有关 DreamBooth 的部分。

检查点合并

待办事项

WebUI 中的检查点合并选项卡可让您将两个模型组合在一起，就像在锅中混合两种酱汁一样，输出是两者组合的新酱汁。

训练 LoRA

待办事项

训练 LoRA 并不一定很难，只是收集足够数据的问题。

谷歌 Colab 设置

如果您必须远离设备工作，这是重要的一步。 Google Colab Pro 每月 10 美元，为您提供 89 GB RAM 和优质 GPU，因此从技术上讲，您可以通过手机运行提示，并让它们在廷巴克图的服务器上为您工作。如果你不介意一点额外的费用，Google Colab Pro+ 每月 50 美元，甚至更好。

转到这个预建的 SD Colab
您可以将其克隆到 GDrive 或直接使用它，这样它始终是 Github 上的最新版本
运行前 4 个代码块（需要一点时间）
跳过 ControlNet 代码块
运行“开始稳定扩散”（需要一点时间）
- 如果您愿意，请输入用户名/密码（这可能是个好主意，因为 Gradio 是公开的）
单击 Gradio 链接（“在公共 URL 上运行”）
像平常一样使用 WebUI
- 将链接发送到您的手机，您就可以随时随地生成图像
要添加新模型和 LoRA，您的 Google Drive 中应该有新文件夹： gdrive/MyDrive/sd/stable-diffusion-webui ，并且从这个基本文件夹中您可以使用您在本地中执行的相同文件夹结构内容网页界面
- 像之前一样安装 LoRA 扩展，文件夹结构将像在桌面上一样自动填充
现在每次你想使用它时，你只需要运行“Start Stable-Diffusion”代码块（没有其他东西），获取渐变链接就可以了

Google Colab 始终免费，您可以永久使用它，但速度可能有点慢。以每月 10 美元的价格升级到 Colab Pro 可为您提供更多功能。但每月 50 美元的 Colab Pro+ 才是真正的乐趣所在。即使关闭选项卡后，Pro+ 仍可让您运行代码 24 小时。

TODO当我将运行时 -> 运行时类型笔记本设置设置为高级 GPU 类别和高 RAM 时，我确实遇到了一个奇怪的错误，该错误破坏了我的 Pro 订阅。这是因为 xFormers 不是基于 CUDA 支持构建的。这可以通过使用 TPU 或禁用 xFormers 来解决，但我现在没有耐心。尝试 Colab 的问题。

中途

MJ对于艺术家来说真的很好。它根本不像 WebUI 中的 SD 那样可扩展或强大（NSFW 是不可能的），但您可以生成一些非常棒的东西。您可以在 MJ Discord 中免费使用它（在他们的网站上注册）以获得一些提示，或者每月支付 8 美元的基本计划，之后您可以在您自己的私人服务器中使用它。所有 Discord 命令都可以在这里和这里找到。 MJ 的提示符结构为：

/imagine <optional image prompt> <prompt> --parameters

MJ参数

这些适用于 MJ V4，与 MJ 5 基本相同。此处描述了所有型号。

--ar 1.2-2.1：宽高比，默认为1:1
--chaos 0-100：变化，默认为0
--没有植物：移除植物
--q 0.0-2.0：渲染质量时间，默认为1
--种子：种子
--stop 10-100：中途停止作业以生成更模糊的图像
--style 4a/4b/4c：MJ 4' 的风格
--stylize 0-1000：MJ 的审美自由奔放的程度，默认为 100
--uplight：使用“轻”放大器，图像不太详细
--upbeta：使用 beta 放大器，更接近原始图像
--upanime：动漫图像的升级器
--niji：动漫图像的替代模型
--hd：使用早期的模型，可以生成更大的图像，适合抽象和风景
--test：使用特殊的MJ测试模型
--testp：使用专门的MJ摄影聚焦测试模型
--tile：仅适用于 MJ 5，生成重复图像
- 可平铺图像检查器
--v 1/2/3/4/5：使用哪个 MJ 版本（5 最好）

MJ 高级提示

您可以将图像（或图像）注入提示的开头，以影响其样式和颜色。请参阅此文档。将图像上传到您的Discord服务器并右键单击以获取链接。
重新混合可以使您可以进行图像，更改模型，主题或中型的变体。请参阅此文档。
多提示使MJ可以单独考虑两个或多个单独的概念。 MJ版本1-4和Niji。例如，“热狗”将制作食物的图像，“ Hot :: Dog”将制作温暖的犬类图像。您也可以在提示中添加权重；例如，“热:: 2狗”将使狗着火的图像。 MJ 1/2/3接受整数重量，MJ 4可以接受小数。请参阅此文档。
混合使您可以上传2-5张图像将它们合并到新图像中。这里描述 /混合命令。

梦想工作室

待办事项

DreamStudio（不是Dreambooth）是稳定AI公司的旗舰平台。他们的网站是一个平台Dreambooth Studio，您可以从中生成图像。就开放功能而言，它在Midjourney和WebUI之间。 Dreambooth Studio似乎是在Invoke.ai平台上建造的，您可以像WebUI一样在本地安装和运行。

稳定的部落

待办事项

稳定的部落是社区的努力，以使每个人免费扩散稳定。从本质上讲，它的作用像洪流或比特币散列，每个人都贡献了一些GPU生成SD含量的功能。可以在此处访问部落应用程序。

梦想展位

待办事项

Dreambooth（不是Dreamstudio）是Google实施了稳定的扩散模型微调技术。简而言之：您可以使用它用自己的图片来训练模型。您可以直接从这里或此处使用它。当您努力实际训练和序列化新模型时，它比仅下载模型并在WebUI中单击更复杂。一些视频总结了如何做：

Dreambooth Easy Tutorial
Dreambooth 10分钟训练
Webui Dreambooth扩展

还有一些好的指南：

Reddit Advanced Dreambooth建议
简单的梦booth
Dreambooth垃圾场（很多信息，滚动浏览链接）

Dreambooth的Google Colab：

Thelastben Dreambooth培训COLAB（与Google COLAB设置中描述的SD COLAB同一位作者）

还有一个称为每个梦的模型培训师。在这里可以找到Dreambooth和Everydream之间的完整比较。

视频扩散

待办事项

从2023年3月开始，可以使用稳定的扩散来生成视频。目前（2023年4月），功能非常简单，因为视频是从类似图像中生成的，逐帧生成，从而使视频具有“翻转书”外观。您可以使用的WebUI有两个主要扩展：您可以使用：

动画师 - 更容易
DEFORUM-更多功能

垃圾场

我不太了解的东西，但需要研究

您可以遵循一个过程，以一遍又一遍地获得良好的结果...随着时间的流逝，这将进行完善。

待办事项
大量修复，在这里
升级，到处都是

chatgpt集成？

外画

dall-e 2

DeForum https://deforum.github.io/

展开

附加信息

版本 1.0.0
类型其他源码
更新时间 2024-12-02
大小 5.25MB
来自于 Github

StableDiffusionEndToEndGuide

稳定扩散端到端指南 - 从菜鸟到专家

免责声明和来源

和它一起玩吧！

目录

WebUI 基础知识

设置本地 GPU 使用率

Linux设置

更深入

提示

新颖的AI模型

洛拉

玩转模型

VAE

把它们放在一起

一般 SD 流程

保存提示

txt2img 设置

重新生成之前生成的图像

排除错误

变得舒适

测试

网络用户界面高级

提示编辑

变形金刚

图像2图像

修复

外画

附加功能

控制网

制作新东西

训练新模型

检查点合并

训练 LoRA

谷歌 Colab 设置

中途

MJ参数

MJ 高级提示

梦想工作室

稳定的部落

梦想展位

视频扩散

垃圾场