StableDiffusionEndToEndGuideダウンロード - StableDiffusionEndToEndGuideソースコードのダウンロード

StableDiffusionEndToEndGuide

その他のソースコード

1.0.0

ダウンロード

安定した拡散のエンドツーエンドガイド - 初心者から専門家まで

私は SD を使用して軍事用途向けの画像を生成することに興味を持ちました。アノンは SD を使用してエロアニメを作成するため、リソースのほとんどは 4chan の NSFW ボードから取得されています。興味深いことに、正規の SD WebUI にはアニメ/エロアニメ画像ボードの機能が組み込まれています...DALL-E 直後の SD の最初の使用例の 1 つはアニメの女の子を生成することであったため、エロアニメへのジャンプは驚くべきことではありません。

とにかく、これらの変人たちのテクニックはさまざまなアプリケーション、特にモデルの微調整機能のような LoRA に適用できます。このアイデアは、特定の LoRA (軍用車両、航空機、武器など) と連携して、視覚モデルをトレーニングするための合成画像データを生成することです。新しい有用な LoRA のトレーニングも興味深いものです。後の作業には、摂動の修復が含まれる可能性があります。

免責事項と情報源

Every link here may contain NSFW content, as most of the cutting-edge work on SD and LoRAs is with porn or hentai. So, please be wary when you are working with these resources. ALSO, Rentry.org pages are the main resources linked to in this guide. If any of the rentry pages do not work, change the .org to .co and the link should work. Otherwise, use the Wayback machine.

-TP

遊んでみてください！

SDでは実際に何ができるのでしょうか？ Huggingface やその他の企業では、ブラウザー内にいくつかのアプリを用意しています。遊んでみてその威力を見てみましょう！このガイドで行うことは、必要なことを何でもできるようにする完全な拡張可能な WebUI を入手することです。

ハグフェイステキストから画像への SD プレイグラウンド
Dreamstudio テキストから画像への SD アプリ
Dezgo テキストから画像への SD アプリ
ハグフェイス画像から画像への SD プレイグラウンド
ハギングフェイス修復プレイグラウンド

WebUIの基本
1. ローカル GPU の使用状況を設定する
  1. Linuxのセットアップ
2. さらに深くなる
  1. プロンプト
3. NovelAIモデル
4. LoRA
5. モデルで遊ぶ
6. VAE
7. すべてをまとめて
  1. 一般的な SD プロセス
  2. プロンプトの保存
  3. txt2imgの設定
  4. 以前に生成したイメージの再生成
  5. エラーのトラブルシューティング
8. 快適になる
9. テスト
WebUI の詳細
1. プロンプト編集
2. エクスフォーマー
3. Img2Img
4. 修復
5. エクストラ
6. コントロールネット
7. 新しいものを作る (WIP)
  1. チェックポイントのマージ
  2. LoRA のトレーニング
  3. 新しいモデルのトレーニング
Google Colab セットアップ (WIP)
旅の途中
1. MJパラメータ
2. MJ の高度なプロンプト
ドリームスタジオ (WIP)
安定した大群 (WIP)
ドリームブース (WIP)
ビデオ拡散 (WIP)

WebUIの基本

これに入るのは少し気が遠くなります...しかし、4channer はこれを親しみやすくするために良い仕事をしました。以下は、私が行った手順を最も簡単な言葉で示したものです。あなたの目的は、Stable Diffusion WebUI (Gradio で構築) をローカルで実行して、プロンプトの表示とイメージの作成を開始できるようにすることです。

ローカル GPU の使用状況を設定する

後で Google Colab Pro のセットアップを行うので、どこでも好きなデバイスで SD を実行できます。まずは、PC で WebUI をセットアップしましょう。 16 GB RAM、2 GB VRAM を備えた GPU、Windows 7 以降、および 20 GB 以上のディスク容量が必要です。

スタートセットアップガイドを完了する
- これをステップ 7 までたどり、その後はエロアニメに移ります
- モデルはそれぞれ 5 GB 以上あるため、ステップ 3 の平均インターネット速度は 15 ～ 45 分かかります。
- ステップ 7 には 30 分以上かかる場合があり、CLI で「スタック」しているように見える場合があります。
- ステップ 3 では、2.x バージョンではなく SD1.5 をダウンロードしました。1.5 の方がはるかに優れた結果が得られるためです。
- CivitAI にはすべての SD モデルがあります。 HuggingFace に似ていますが、SD 専用です
WebUI が動作することを確認する
1. 完了したら、CLI が出力する URL をコピーします（例: 127.0.0.1:7860 ）（このコマンドにより CLI が閉じられる可能性があるため、Ctrl + C は使用しないでください）。
2. ブラウザに貼り付けると出来上がりです。プロンプトを試してみてください、そうすればレースに出発できます
3. 画像は生成時に、 stable-diffusion-webuioutputstxt2img-images<date>に自動的に保存されます。
更新するには、stable-diffusion-webui フォルダーで CLI を開き、コマンドgit pullを入力するだけです。

Linuxのセットアップ

Windows を使用している場合は、これを完全に無視してください。少し複雑ですが、Linux でも実行することができました。私はこのガイドに従って作業を開始しましたが、かなり貧弱に書かれているため、Linux で実行するために私が行った手順を以下に示します。私は Ubuntu 20 ディストリビューションである Linux Mint 20 を使用していました。

まずは webui リポジトリのクローンを作成します: git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
SD モデル (前のセクションと同様、SD 1.5 など) を取得します。
モデル ckpt ファイルをstable-diffusion-webui/models/Stable-diffusionに置きます。
Python をダウンロードします (まだお持ちでない場合): sudo apt install python3 python3-pip python3-virtualenv wget git
また、WebUI は非常に特殊なので、内部で動作するには仮想環境マネージャーである Conda をインストールする必要があります。

 wget https://repo.anaconda.com/miniconda/Minconda3-latest-Linux-x86_64.sh
chmod +x Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh

次に、環境を作成します: conda create --name sdwebui python=3.10.6
環境をアクティブ化します: conda activate sdwebui
WebUI フォルダーに移動し、 ./webui.shと入力します。
CUDA/GPU にアクセスできないというエラーが表示されるまで、少しの間実行されるはずです...これは次のステップなので問題ありません
まず、既存の Nvidia ドライバーを消去します。

 sudo apt update
sudo apt purge *nvidia*

さて、このガイドのいくつかに従って、Linux マシンに搭載されている GPU を調べます (これを行う最も簡単な方法は、ドライバーマネージャーアプリを開くことです。そうすれば、GPU がリストに表示されます。ただし、方法は十数あります。Google で調べてください)。
このページに移動し、Linux x86_64 の下の「最新の新機能ブランチ」をクリックします (私の場合、それは 530.xx.xx でした)。
「サポートされている製品」タブをクリックし、Ctrl + F を押して GPU を見つけます。リストされている場合は続行し、そうでない場合はバックアウトして「最新の Production Branch バージョン」を試してください。数字をメモします（例：530）
ターミナルで、 sudo add-apt-repository ppa:graphics-drivers/ppaと入力します。
sudo apt-get updateで更新する
Driver Manager アプリを起動すると、ドライバーのリストが表示されます。推奨されているもの (例: nvidia-driver-530-open) を選択せず、以前のもの (例: nvidia-driver-530) を正確に選択し、変更を適用してください。または、 sudo apt-get install nvidia-driver-530を使用してターミナルにインストールします。
この時点で、CLI を介してセキュアブートに関するポップアップが表示され、8 桁のパスワードの入力を求められます。パスワードを設定して書き留めてください。
PC を再起動し、暗号化/ユーザーログインの前に、MOK キーを入力するオプションを含む BIOS のような画面が表示されるはずです (これはメモリから書いています)。それをクリックしてパスワードを入力し、送信して起動します。ここにいくつかの情報があります
通常どおりログインし、コマンドnvidia-smiを入力します。成功した場合は、表を出力する必要があります。そうでない場合は、「GPU に接続できませんでした。最新のドライバーがインストールされていることを確認してください」のようなメッセージが表示されます。
ここで CUDA をインストールします (ここでの最後のコマンドは、新しい CUDA インストールに関する情報を出力するはずです)。このガイドから:

 sudo apt update
sudo apt install apt-transport-https ca-certificates gnupg
sudo apt install nvidia-cuda-toolkit
nvcc-version

ここで、戻ってステップ 7 ～ 9 を実行します。「エラー: Python venv をアクティベートできません。中止しています...」というメッセージが表示された場合は、次のステップに進みます (そうでない場合は、レースに出発し、通常どおり CLI から IP アドレスをコピーして、SD でのプレイを開始できます)。
この Github の問題には、この venv の問題のトラブルシューティングが含まれています...私にとって、うまくいったのは実行中です

 python3 -c 'import venv'
python3 -m venv venv/

次に、 /stable-diffusion-webuiフォルダーに移動して、以下を実行します。

 rm -rf venv/
python3 -m venv venv/

その後はうまくいきました。

さらに深くなる

プロンプト手法については、知っておくべきことがたくさんあるので読んでください (例: ポジティブプロンプトとネガティブプロンプト、サンプリングステップ、サンプリング方法など)。
- OpenArt プロンプトブックガイド
- 決定版 SD プロンプトガイド
- 簡潔なプロンプトガイド
- 4chan プロンプトのヒント (NSFW)
- プロンプトと画像のコレクション
- ステップバイステップのアニメガールプロンプトガイド
SD に関する一般的な知識について読んでください。
- 精力的に安定した普及出版物
- CompVis / Stability AI Github (オリジナルの SD モデルのホーム)
- Stable Diffusion Compendium (優れた外部リソース)
- 安定した拡散リンクハブ (素晴らしい 4chan リソース)
- 安定拡散のゴールドマイン
- 簡略化された SD ゴールドマイン
- ランダム/その他SDリンク
- よくある質問 (NSFW)
- 別のよくある質問
安定版拡散 Discord に参加してください
Stable Diffsion の最新ニュースを入手してください
- 2023 年 3 月の時点で、1.7B パラメータのテキストからビデオへの拡散モデルが利用可能になったことをご存知ですか?
WebUI をいじったり、さまざまなモデルや設定などを試してみます。

プロンプト

プロンプト内の単語の順序には影響があり、前の単語が優先されます。優れたプロンプトの一般的な構造は次のとおりです。

<general positives> <descriptors of subject> <descriptors of background> <post-processing, camera, etc.>

また、別の優れたガイドでは、プロンプトは次の構造に従う必要があると述べています。

<subject> <medium> <style> <artist> <website> <resolution> <additional details> <color> <lighting>

プロンプトエンジニアリング txt2img モデルに関する独創的な論文はここにあります。 LLM プロンプトに関する決定的なリソースはこちらです。

何を要求しても、プロセスを複製できるように、ある種の構造に従うようにしてください。必要なプロンプト構文要素は次のとおりです。

() = x1.05 修飾子
[] = /1.05 修飾子
(ワード:1.05) == (ワード)
(ワード:1.1025) == ((ワード))
(単語:.952) == [単語]
(単語:.907) == [[単語]]
AND キーワードを使用すると、2 つの別個のプロンプトを一度に表示してそれらを結合できます。潜在空間で物がバラバラにならないようにするのに良い
- 例: 1girl standing on grass in front of castle AND castle in background

NovelAIモデル

デフォルトのモデルは非常にきちんとしていますが、歴史上よくあることですが、ほとんどのことは性欲によって引き起こされます。 NovelAI (NAI) はアニメに特化した SD コンテンツ生成サービスであり、その主要モデルが漏洩されました。あなたが見るアニメの男性と女性の SD 生成画像 (NSFW かどうかに関係なく) のほとんどは、この流出したモデルから来ています。

いずれにせよ、これは人々を生成するのに非常に優れており、アニメ画像でトレーニングされているため、マージしてプレイするモデルや LoRA のほとんどはこれと互換性があります。また、人間は、プロの目的で使用したい LoRA を正確に微調整するための非常に優れた開始ユースケースを提供します。多くのトラブルシューティングを行うことになりますが、世に出ているガイドのほとんどは女性の画像に関するものです。後で、モデルに真のリアリズムをもたらす変数自動エンコーダー (VAE) について説明します。

NovelAI Speedrun ガイドに従ってください
- 漏洩したモデルを Torrent するか、他の場所で見つける必要があります。
ファイルを WebUI のフォルダーstable-diffusion-webuimodelsStable-diffusionに取得し、そこでモデルを選択したら、CLI が VAE 重みをロードするまで数分待つ必要があります。
- ここで問題が発生した場合は、モデルがあったフォルダーから config.yaml ファイルをコピーし、同じ命名スキームに従います (このガイドと同様)。
これは重要です...アスカのイメージが一致しない場合は、トラブルシューティングガイドを参照して正確に再作成します。
新しい SD モデルと LoRA を見つける
- CivitAI
- ハグフェイス
- SDGモデル
- SDG モデルマザーロード (NSFW)
- SDG LoRA マザーロード (NSFW)
- 人気モデル多数（先ほどの催促ガイドも）（NSFW）

LoRA

低ランク適応 (LoRA) により、特定のモデルを微調整できます。 LoRA の詳細については、こちらをご覧ください。 WebUI では、ケーキの上に飾るように LoRA をモデルに追加できます。新しい LoRA のトレーニングも非常に簡単です。他にも「先祖代々の」微調整手段 (テキスト反転やハイパーネットワークなど) はありますが、LoRA は最先端のものです。

ZTZ99A 戦車 - 軍用戦車 LoRA (特定戦車)
戦闘機 - 戦闘機 LoRA
epi_noiseoffset - 画像をポップにし、コントラストを高める LoRA

ガイド全体を通してタンク LoRA を使用します。これはアニメスタイルの画像を目的としているため、あまり優れた LoRA ではないことに注意してください。しかし、遊ぶには問題ありません。

このクイックガイドに従って拡張機能をインストールしてください
UI に「追加ネットワーク」セクションが表示されます。
LoRA をstable-diffusion-webuiextensionssd-webui-additional-networksmodelsloraに配置します。
選択して実行
- 「有効にする」にチェックを入れてください
- ダウンロードした LoRA には、「キーワードタンクを使用する」など、その使用方法を説明する情報が含まれている可能性があることに注意してください。どこからダウンロードしても (CivitAI など)、その説明を必ず読んでください。

モデルで遊ぶ

前のセクションに基づいて構築します...モデルが異なれば、トレーニングデータとトレーニングキーワードも異なります...そのため、一部のモデルで booru タグを使用すると、あまりうまく機能しません。以下は私が遊んだモデルの一部とその「説明書」です。

SDG モデルマザーロードは、ほとんどのモデルを取得するために使用されます。ここでは、簡単な参照のために手順を要約しています。ほとんどのモデルは文字通りのポルノ用ですが、私はリアルなものに焦点を当てました。リンクをクリックすると、プロンプトの例、画像、およびそれぞれの使用に関する詳細な注意事項が表示されます。

デフォルトの SD モデル (1.5、セットアップ手順から。SD の 2.x バージョンでもプレイできますが、率直に言って、それらは最悪です)
NovelAI モデル (最初のガイドより)
Anything v3 - 汎用アニメモデル
Dreamshaper - リアリズム、万能
意図的 - リアリズム、ファンタジー、絵画、風景
終わりのない夢 - リアリズム、ファンタジー、人と動物に良いもの
- ブールタグシステムを使用
Epic Diffusion - オリジナルの SD を置き換えることを目的とした超リアリズム
AbyssOrangeMix (AOM) - アニメ、リアリズム、芸術的、絵画、非常に一般的でテストに適しています
kotosmix - 汎用、リアリズム、アニメ、風景、人物、DPM++ 2M Karras サンプラー推奨

他のすべてを取得するために CivitAI が使用されました。アカウントを作成する必要があります。そうしないと、武器や軍事装備を含む NSFW 関連のコンテンツを見ることができなくなります。 CivitAI では、一部のモデル (チェックポイント) に VAE が含まれています。これが記載されている場合は、それもダウンロードしてモデルの横に置きます。

ChilloutMix - 超リアリズム、ポートレート、最も人気のあるものの 1 つ
Protogen x3.4 - 超リアリズム
- トリガーワードを使用: モデルシュートスタイル、アナログスタイル、mdjrny-v4-スタイル、nousr robot
夢のようなフォトリアル 2.0 - 超現実主義
- トリガーワードを使用: フォトリアリスティック
SPYBG のデジタルアーティスト向けツールキット - リアリズム、コンセプトアート
- トリガーワードを使用: tk-char、tk-env

VAE

可変オートエンコーダーにより、画像の見栄えが良くなり、鮮明になり、白飛びが少なくなります。手や顔を固定するものもあります。しかし、それは主に彩度とシェーディングの問題です。こことここ (NSFW) で説明されています。 NovelAI / Anything VAE がよく使われます。これは基本的に、LoRA と同様に、モデルへのアドオンです。

VAE リストで VAE を検索します。

NAI / なんでも - アニメモデル用
- NAI モデルをモデルフォルダーに入れると、デフォルトで NAI モデルが付属します。
SD 1.5 - 現実的なモデル用

VAEをダウンロードする
ガイドのこの簡単なセクションに従って、WebUI で VAE をセットアップします。
- 必ず、 stable-diffusion-webuimodelsVAEに配置してください。
VAE を使用した場合と使用しない場合でイメージを作成してみて、違いを確認してください。

すべてをまとめて

ここでは、このガイドの時系列の流れとは必ずしも一致しない、途中で学んだ一般的な注意事項と役に立つことをいくつか紹介します。

一般的な SD プロセス

学習する良い方法は、CivitAI、AIbooru、または他の SD サイト (4chan、Reddit など) でクールな画像を参照し、気に入った画像を開いて、生成パラメータを WebUI にコピーすることです。完全な開示: ここで説明するように、イメージを正確に再作成することが常に可能であるとは限りません。しかし、通常はかなり近づくことができます。実際に遊んでみるには、モデルがよりクリエイティブになるように CFG を低くします。バッチを試し、コンピュータから離れてロットに戻って選択します。

WebUI ワークフローの一般的なプロセスは次のとおりです。

find/pick models/LoRAs -> txt2img (repeat, change params, etc.) -> img2img -> inpainting -> extra ->

txt2img - プロンプトを表示して画像を取得します
img2img - 画像を編集し、同様の画像を生成します
修復 - 画像の一部を編集します (後で説明します)
追加 - 最終的な画像編集 (後で説明します)

プロンプトの保存

画像を貼り付けたり、最初から作成したりせずに、プロンプトに戻りたい場合があります。プロンプトを保存して、WebUI で再利用できます。

肯定的および/または否定的なプロンプトを作成します
「生成」ボタンの下で、右側のボタンをクリックして「スタイル」を保存します。
名前を入力して保存
[スタイル] ドロップダウンをクリックしていつでも選択できます。

txt2imgの設定

このセクションは、多かれ少なかれ、このガイドの情報のダイジェストです。

一般に、サンプリングステップが多いほど精度が高くなります (オイラー a など、頻繁に変更される「a」サンプラーを除く)
これをオンまたはオフにして遊んでください。一般的に、オンにすると顔が本当に良く見えます
ハイレゾ。修正は 512x512 を超える画像に適しています。画像に複数の人物が含まれている場合に便利です
CFG は、5 ～ 10 など、中程度の値で最適です。

以前に生成したイメージの再生成

すでに存在する SD で生成されたイメージから作業する場合。誰かがあなたに送ってくれたか、自分が作ったものを再作成したいかもしれません。

WebUI で、「PNG 情報」タブに移動します。
興味のある画像を UI にドラッグアンドドロップします。
- これらはstable-diffusion-webuioutputstxt2img-images<date>に保存されます。
右側の使用パラメータを参照してください
- PNG はメタデータを保存できるため機能します
対応するボタンを使用して、txt2img ページに直接送信できます。
- モデル、VAE、およびその他のパラメーターが正しく自動入力されていることを確認するために、何度も確認する必要がある場合があります。

一部のサイト (4chan など) では、画像がアップロードされると PNG メタデータが削除されるため、完全な画像への URL を探すか、CivitAI や AIbooru などの SD メタデータを保持するサイトを使用することに注意してください。

エラーのトラブルシューティング

時々いくつかのエラーが発生します。主にメモリ不足 (VRAM) エラーが発生し、一部のパラメータの値を下げることで修正されました。時にはリストアの顔や採用者もいます。設定を修正するとこの問題が発生する可能性があります。ファイルstable-diffusion-webuiwebui-user.batのset COMMANDLINE_ARGS=行に、一般的なエラーを修正するいくつかのフラグを置くことができます。

NaN エラー、「VAE が NaN を生成した」という結果の場合は、パラメータ--disable-nan-checkを追加します
黒い画像が表示された場合は、 --no-halfを追加してください
VRAM が不足し続ける場合は、 --medvramを追加します。ポテトコンピュータの場合は、 --lowvram追加します。
顔復元 Codeformer の修正はこちら (壊れた場合は、まずインターネットをリセットしてみてください)
モデルの読み込みが遅い (新しいモデルに切り替えるとき) のは、適切に構成されていない場合に .safetensors ファイルの読み込みが遅いことが考えられます。このスレッドではそれについて議論します。

よくある問題の 1 つは、Python のバージョンまたは Torch のバージョンが間違っていることに起因します。「Torch をインストールできません」または「Torch が GPU を見つけられません」などのエラーが発生します。最も簡単な修正は次のとおりです。

SD WebUI は 3.10.6 を想定しているため、更新した Python バージョンをアンインストールします (私は 3.11.5 を使用し、開始エラーを無視しましたが、3.10.6 が最適に動作するようです) (必要に応じてバージョンマネージャーを使用することもできます)十分に進んでいます）
Python 3.10.6 をインストールします。必ず PATH ( PythonフォルダーとPython/Scriptsフォルダーの両方) に追加してください。
stable-diffusion-webuiフォルダー内のvenvフォルダーを削除します。
stable-diffusion-webuiwebui-user.batを実行し、venv を適切に再構築します。
楽しむ

すべてのコマンドライン引数はここにあります。

快適になる

一部の拡張機能を使用すると、WebUI をより使いやすくできます。 Github リンクを取得し、[拡張機能] タブに移動し、URL からインストールします。オプションで、[拡張機能] タブで [利用可能] をクリックし、[ロード元] をクリックすると、拡張機能をローカルで参照できます。これは、拡張機能の Github Wiki を反映しています。

Tag Completer - 入力時に booru タグを推奨し、自動補完します
安定した Diffusion Web UI 状態 - 再起動後も UI 状態を保持します
Test My Prompt - プロンプトから個々の単語を削除して画像生成にどのような影響を与えるかを確認するために実行できるスクリプト
Model-Keyword - 一部のモデルと LoRA に関連付けられたキーワードを自動入力します。2023 年 4 月の時点で非常によく管理され、最新です。
NSFW Checker - NSFW 画像を黒く塗りつぶします。多くの優れたモデルでは NSFW コンテンツが許可されていますが、職場では見たくないかもしれないため、オフィスで働いている場合に役立ちます。
- 注意: この拡張機能は、NSFW 画像を黒く表示することで修復や生成を混乱させる可能性があります (一時的なものではなく、文字通り黒い画像を出力します)。そのため、必要に応じて必ずオフにしてください。
Gelbooru プロンプト - タグを取得し、そのハッシュを使用して任意の Gelbooru イメージから自動プロンプトを作成します
booru2prompt - Gelbooru プロンプトに似ていますが、もう少し機能が優れています。
動的プロンプト - ランダムまたは組み合わせのプロンプトを実行してさまざまなイメージを生成できるプロンプト生成用のテンプレート言語 (ワイルドカードを使用)
- ここでさらに説明しました
モデルツールキット - モデルの管理、編集、作成に役立つ人気の拡張機能
モデルコンバーター - 独自のモデルをトレーニングするときに、モデルの変換、精度の変更などに役立ちます。

テスト

これで、いくつかのモデル、LoRA、プロンプトができました。何が最も効果的かをテストするにはどうすればよいでしょうか? [追加ネットワーク] ペインの下に、[スクリプト] ドロップダウンがあります。ここで、X/Y/Z プロットをクリックします。 X タイプで、チェックポイント名を選択します。 X 値で、右側のボタンをクリックしてすべてのモデルを貼り付けます。 Y タイプでは、VAE、あるいはシード、または CFG スケールを試してください。どの属性を選択しても、グラフにしたい値を貼り付け (または入力) します。たとえば、5 つのモデルと 5 つの VAE がある場合、25 個の画像のグリッドを作成し、各モデルが各 VAE でどのように出力するかを比較します。これは非常に多用途であり、何を使用するかを決定するのに役立ちます。 X 軸または Y 軸が VAE のモデルである場合、すべての組み合わせに対してモデルまたは VAE の重みをロードする必要があるため、時間がかかる可能性があることに注意してください。

SD 比較に関する非常に優れたリソースは、ここ (NSFW) にあります。フォローすべきリンクがたくさんあります。さまざまなモデル、VAE、LoRA、パラメータ値などが画像生成にどのように影響するかを理解し始めることができます。

ここからテストプロンプトを採用し、タンク LoRA を使用してこの X/Y グリッドを作成しました。さまざまなモデルとサンプラーがどのように相互に連携するかを確認できます。このテストから、次のことが評価できます。

ChilloutMix、Deliberate、Dreamlike Photoreal、Epic Diffusion の各モデルは、最も「現実的な」戦車画像を生成するようです。
- その後の独立したテストで、Protogen X34 Photorealism と SpyBGs Toolkit は両方とも戦車でも非常に優れていることが判明しました。
ここで最も有望なサンプラーは、DPM++ SDE または Karras サンプラーのいずれかのようです。

タンク

これらの戦車画像のそれぞれに使用される正確なパラメーター (モデルやサンプラーは含まれません) を以下に示します (こちらもここから引用)。

肯定的なプロンプト: 戦車、bf2042、最高品質、傑作、超高解像度、(フォトリアリスティック:1.4)、詳細な肌、映画のような照明、映画のような非常に詳細な、カラフルでモダンな写真、戦場の兵士のグループ、戦場のいたるところで爆発、ジェット戦闘機空を飛ぶヘリコプター、地上の2台の戦車、砂漠地帯、火災に見舞われた建物、背景に放棄された軍用装甲車両1台
ネガティブプロンプト: 裸、(最悪の品質:2)、(低品質:2)、(通常の品質:2)、低解像度、悪い解剖学、悪い手、通常の品質、((モノクロ))、((グレースケール))、折りたたまれていますアイシャドウ、複数の眉毛、ピンクの髪、胸の穴、ng_deepnegative_v1_75t、nsfw、乳首、余分な指、((余分な腕))、(余分な脚)、突然変異した手、(指が融合)、(指が多すぎる)、(長い首:1.3)
ステップ: 22
CFGスケール: 7.5
シード: 1656460887
サイズ: 480x480
クリップスキップ: 2
AddNet 有効: True、AddNet モジュール 1: LoRA、AddNet モデル 1: ztz99ATank_ztz99ATank(82a1a1085b2b)、AddNet Weight A 1: 1、AddNet Weight B 1: 1

WebUI の詳細

このセクションでは、WebUI の txt2image タブでモデル、LoRA、VAE、プロンプト、パラメータ、スクリプト、および拡張機能の使用に慣れてきたら、実行できるより高度な操作について説明します。

プロンプト編集

プロンプトブレンディングとも呼ばれます。プロンプト編集を使用すると、指定したステップでモデルのプロンプトを変更できます。下の画像は 4chan の投稿から取ったもので、このテクニックについて説明しています。たとえば、このガイドで説明されているように、プロンプト編集を使用して面をブレンドできます。

エクスフォーマー

Xformers、またはクロスアテンション層。 Nvidia GPU でのイメージ生成 (秒/反復、または s/it で測定) を高速化する方法は、VRAM の使用量を減らしますが、非決定性を引き起こします。強力な GPU を使用している場合にのみ、これを考慮してください。現実的にはQuadroが必要です。

img2img

実際にはあまり使用されず、ややこしいタブです。 Huggingface Image to Image SD Playground のように、スケッチから画像を生成するために使用できます。このタブには修復というサブタブがあります。これは次のセクションの主題であり、WebUI の非常に重要な機能です。このセクションを使用して、既に作成した画像 ( stable-diffusion-webuioutputsimg2img-imagesへの出力) に基づいて変更された画像を生成することができますが、私にとってその機能にはむらがあります... 非常に大量のメモリを使用するようです。かろうじて機能させることができます。以下の次のセクションに進んでください。

修復

これは、コンテンツ作成者または画像の摂動に興味のある人にとって力がある場所です。出力はstable-diffusion-webuioutputsimg2img-imagesにあります。

インペイントとアウトペイントのガイド
4chan 修復 (NSFW)
決定版修復ガイド

気に入った画像を取得しますが、それは完璧ではなく、何かが間違っています -微調整する必要があります
- または、生成して [修復に送信] をクリックします (すべての設定が自動入力されます)。
これで、「img2img -> inpaint」サブタブが表示されます。
画像上で変更したい正確な位置をマウスで描画します。
マスクモードを「マスクされた状態に修復」、マスクされたコンテンツを「オリジナル」、領域を修復する「マスクされたのみ」に設定します。
上のプロンプト領域に、画像内のその場所を微調整するための新しいプロンプトを書き込みます。必要に応じて否定的なプロンプトを実行してください
画像を生成します (理想的には 4 つほどのバッチを実行します)
どちらかお好みの場合は、[送信] をクリックして修復し、完成したイメージが得られるまで繰り返します。

上塗り

アウトペイントはかなり複雑なセマンティックプロセスです。アウトペイントを使用すると、画像を取得して何度でも拡大することができ、基本的に画像の境界線を拡大することができます。ここではそのプロセスについて説明します。画像を一度に拡大できるのは 64 ピクセルだけです。これには 2 つの UI ツールがあります (私が見つけたものは):

Alpha Canvas (拡張機能/スクリプトとして WebUI に組み込まれています)
Hua (インペイント/アウトペイント用の Web アプリ)

エクストラ

この WebUI タブはアップスケーリング専用です。本当に気に入った画像が見つかった場合は、ワークフローの最後にここで画像をアップスケールできます。アップスケールされたイメージはstable-diffusion-webuioutputsextras-imagesに保存されます。 txt2img タブでの生成中に、より強力なアップスケーラーによるアップスケーリングに関連するメモリの問題の一部 (例: 4x+ のもの) は、新しいイメージを生成せず、静的なイメージのみをアップスケーリングするため、ここでは発生しません。

コントロールネット

ControlNet の機能を理解する最良の方法は、「ステロイドを使った修復」と言うのと同じです。入力イメージ (SD 生成かどうかに関係なく) を与えると、全体を変更できます。 ControlNet ではポーズも可能です。人物の基準ポーズを指定し、典型的なプロンプトに応じて対応する画像を生成できます。 ControlNet を理解するための良いスタートはここからです。

WebUI に ControlNet 拡張機能 sd-webui-controlnet をインストールします。
- 設定タブの [UI の再読み込み] ボタンをクリックして、必ず UI を再読み込みしてください。
ControlNet ボタンが txt2img (および img2img) タブの追加ネットワーク (LoRA を配置する場所) の下にあることを確認します。
マルチ ControlNet モデルを有効にします: [設定] -> [ControlNet] -> [Mutli ControlNet] スライダー -> [2+]
- UI をリロードすると、ControlNet 領域に複数のモデルタブが表示されます。
- 複数の LoRA を使用するのと同じように、ControlNet (Canny や OpenPose など) を組み合わせることができます。
ControlNet モデルを取得する
- Canny モデルはエッジ検出モデルです。画像は白黒のエッジ画像に変換され、エッジによって画像がどのように見えるかを SD に大まかに伝えます。
- OpenPose モデルは人物の画像を取得し、後の画像で使用するポーズモデルに変換します。
- 他にも調査できるモデルがたくさんあります
Canny モデルと OpenPose モデルを取得しましょう
これらをstable-diffusion-webuiextensionssd-webui-controlnetmodelsに配置します。
興味のある画像を取得するか、新しい画像を生成します。ここでは、以前に生成したこの戦車の画像を使用します
txt2imgの設定：サンプリング方法「DDIM」、サンプリングステップ20、幅/高さは選択した画像と同じ
[ControlNet] タブの設定: [有効] にチェックを入れ、プリプロセッサ "Canny"、モデル "control_canny-fp16"、キャンバスの幅/高さは選択した画像と同じ (その他の設定はすべてデフォルト)
プロンプトを変更し、「生成」をクリックします。戦車の画像を火星の画像に変換してみました
- 肯定的なプロンプトは次のとおりです: 火星の風景、宇宙空間、宇宙、宇宙、((銀河空間の背景))、星、月面基地、未来的、黒い背景、暗い背景、空の星、(夜間) 赤い砂、((の星背景))、戦車、bf2042、最高品質、傑作、超高解像度、(フォトリアリスティック:1.4)、詳細な肌、映画のような照明、映画のような非常に詳細な、カラフル、モダンな写真、兵士のグループ戦場、どこでも戦場の爆発、空を飛ぶジェット戦闘機とヘリコプター、地面に2台の戦車、砂漠地帯、火災の建物、背景に1台の放棄された軍用装甲車両、木、森、空
人物が写っている画像を取得すると、Control Model - 0 の Canny モデルと Control Model - 1 の OpenPose モデルの両方を実行して、本当に楽しむことができます。
繰り返しになりますが、Canny と OpenPose について詳しく説明するこのビデオをご覧ください。

新しいものを作る

これはすべて良いことですが、プロのユースケースでは、より優れたモデルや LoRA が必要になる場合があります。 SD コンテンツのほとんどは文字通り女性やポルノを生成することを目的としているため、特定のモデルや LoRA をトレーニングする必要がある場合があります。

ここで興味のあるトピックをすべて参照してください
- LoRA のトレーニング
- LoRAトレイン
- Lazy LoRA トレーニングガイド
- CivitAI の優れた LoRA トレーニングガイド
- 別の LoRA トレーニングガイド
- より一般的な LoRA 情報
- モデルの結合
- モデルの混合

新しいモデルのトレーニング

DreamBooth のセクションを参照してください。

チェックポイントのマージ

TODO

WebUI のチェックポイント結合タブを使用すると、鍋で 2 つのソースを混ぜるなど、2 つのモデルを組み合わせることができます。出力は、両方を組み合わせた新しいソースになります。

LoRA のトレーニング

TODO

LoRA のトレーニングは必ずしも難しいわけではなく、十分なデータを収集するだけの問題です。

Google Colab のセットアップ

リグから離れて作業する必要がある場合、これは重要なステップです。 Google Colab Pro は月額 10 ドルで、89 GB の RAM と優れた GPU へのアクセスを提供するため、技術的には携帯電話からプロンプトを実行し、それを Timbuktu のサーバー上で動作させることができます。多少の追加料金を気にしない場合は、Google Colab Pro+ が月額 50 ドルでさらにお得です。

この事前構築済み SD Colab に移動します
GDrive にクローンを作成することも、そのまま使用することもできるので、Github から常に最新の状態になります。
最初の 4 つのコードブロックを実行します (少し時間がかかります)
ControlNet コードブロックをスキップします。
「安定拡散の開始」を実行します（少し時間がかかります）
- 必要に応じてユーザー名/パスワードを入力します (Gradio は公開されているため、おそらく良いアイデアです)
Gradio リンクをクリックします (「パブリック URL で実行中」)
通常どおり WebUI を使用する
- リンクを携帯電話に送信すると、外出先で画像を生成できます
新しいモデルと LoRA を追加するには、Google ドライブに新しいフォルダーが必要です: gdrive/MyDrive/sd/stable-diffusion-webui 。このベースフォルダーから、ローカルで行っていたのと同じフォルダー構造を使用できます。 WebUI
- 先ほどと同じように LoRA 拡張機能のインストールを行うと、デスクトップと同じようにフォルダー構造が自動的に設定されます。
これを使用するたびに、「Start Stable-Diffusion」コードブロック (他のものは何もありません) を実行し、gradio リンクを取得するだけで完了です。

Google Colab は常に無料で永久に使用できますが、少し遅くなる場合があります。月額 10 ドルで Colab Pro にアップグレードすると、さらに強力になります。しかし、本当に楽しいのは月額 50 ドルの Colab Pro+ です。 Pro+ では、タブを閉じた後でも 24 時間コードを実行できます。

TODOランタイム -> ルーンタイムタイプのノートブック設定をプレミアム GPU クラスと高 RAM に設定すると、Pro サブスクリプションを中断する奇妙なエラーが発生します。それは、xFormers が CUDA サポートを使用して構築されていないためです。これは、代わりに TPU を使用するか、xFormer を無効にすることで解決できる可能性がありますが、現時点では忍耐力がありません。 Colab の問題を試してください。

旅の途中

MJはアーティストにとって本当に良い存在だ。 WebUI の SD ほど拡張性や強力さはまったくありません (NSFW は不可能) が、かなり素晴らしいものを生成できます。 MJ Discord (サイトでサインアップ) で数回のプロンプトを表示するまでは無料で使用できます。または、月額 8 ドルを支払うベーシックプランを使用することもでき、その後は自分のプライベートサーバーで使用できます。すべての Discord コマンドはこことここにあります。 MJ のプロンプト構造は次のとおりです。

/imagine <optional image prompt> <prompt> --parameters

MJパラメータ

これらは MJ V4 用であり、MJ 5 でもほとんど同じです。ここではすべてのモデルについて説明します。

--ar 1.2-2.1: アスペクト比、デフォルトは 1:1
--chaos 0-100: バリエーション、デフォルトは 0
--no plant: 植物を削除します。
--q 0.0-2.0: レンダリング品質時間、デフォルトは 1
--seed: シード
--stop 10-100: ジョブを途中で停止して、よりぼやけた画像を生成します
--style 4a/4b/4c: MJ 4' のスタイル
--stylize 0-1000: MJ の美学が自由に実行される強さ、デフォルトは 100
--uplight: 「ライト」アップスケーラーを使用します。画像の詳細は低くなります。
--upbeta: 元のイメージに近いベータアップスケーラーを使用します。
--upanime: アニメ画像のアップスケーラー
--niji: アニメ画像の代替モデル
--hd: 抽象画や風景に適した、より大きな画像を生成する以前のモデルを使用します。
--test: 特別な MJ テストモデルを使用します。
-TESTP：特別なMJフォトグラフィー中心のテストモデルを使用します
- タイル：MJ 5のみの場合、繰り返し画像を生成します
- タイル張りの画像チェッカー
-v 1/2/3/4/5：使用するMJバージョン（5が最適）

MJ Advancedプロンプト

画像（または画像）をプロンプトの先頭に注入して、そのスタイルと色に影響を与えることができます。このドキュメントを参照してください。イメージをDiscordサーバーにアップロードし、右クリックしてリンクを取得します。
リミックスを使用すると、画像、モデルの変更、被験者、または中程度のバリエーションを作成できます。このドキュメントを参照してください。
マルチプロンプトにより、MJは2つ以上の個別の概念を個別に考慮することができます。 MJバージョン1-4とNijiのみ。たとえば、「ホットドッグ」は食べ物の画像を作ります。「Hot :: Dog」は温かい犬の画像を作ります。プロンプトにもウェイトを追加できます。たとえば、「Hot :: 2 Dog」は、犬の画像を燃やします。 MJ 1/2/3整数重量を受け入れ、MJ 4は小数を受け入れることができます。このドキュメントを参照してください。
ブレンドでは、2〜5個の画像をアップロードして、新しい画像にマージできます。 /blendコマンドについて説明します。

Dreamstudio

TODO

Dreamstudio（Dreamboothではない）は、安定性AI会社のフラッグシッププラットフォームです。彼らのサイトはプラットフォームであるDreambooth Studioで、そこから画像を生成できます。オープン機能の観点から、ミディジョニーとWebUIの間にあるようなものです。 Dreambooth Studioは、invoke.aiプラットフォームの上に構築されているようです。これは、WebUIのように地元でインストールして実行できます。

安定した大群

TODO

安定したHordeは、すべての人に安定した拡散を自由にするためのコミュニティの努力です。基本的には、トレントやビットコインハッシュのように機能します。そこでは、誰もがGPUパワーの一部を寄付してSDコンテンツを生成します。 Hordeアプリにアクセスできます。

ドリームブース

TODO

DreamBooth（Dreamstudioではない）は、Googleが安定した拡散モデルの微調整技術の実装でした。要するに、それを使用して、独自の写真でモデルをトレーニングできます。ここまたはここから直接使用できます。モデルをダウンロードしてWebUIをクリックするよりも複雑です。実際に新しいモデルのトレーニングとシリアル化に取り組んでいるからです。いくつかのビデオはそれを行う方法を要約します：

DreamBooth Easyチュートリアル
Dreambooth 10分間のトレーニング
WebUI Dreambooth Extension

そしていくつかの良いガイド：

Reddit Advanced Dreamboothのアドバイス
シンプルなドリームブース
dreamboothダンプ（たくさんの情報、リンクをスクロールする）

DreamboothのGoogleコラブ：

Thelastben Dreambooth Training Colab（Google Colabセットアップで説明されているSDコラブと同じ著者）

EveryDreamと呼ばれるモデルトレーナーもあります。 DreamboothとEverydreamの完全な比較は、ここにあります。

ビデオ拡散

TODO

2023年3月の時点で、ビデオを生成するために安定した拡散を使用することが可能です。現在（2023年4月）、ビデオはフレームごとに類似の画像から生成され、ビデオに一種の「フリップブック」の外観を与えるため、機能はかなり単純です。使用できるWebUIには2つの主要な拡張機能があります。

アニメーター - 簡単です
Deforum-より多くの機能

廃棄物

あまり知らないが、調べる必要があるもの

何度も良い結果を得るために従うことができるプロセスがあります...これは時間の経過とともに洗練されます。

TODO
Highres Fix、こちら
アップスケーリング、あらゆるものがありますが、ここでは主に

chatgpt統合？

上塗り

Dall-E 2

deforum https://deforum.github.io/

拡大する

追加情報

バージョン 1.0.0
タイプその他のソースコード
更新時間 2024-12-02
サイズ 5.25MB
から Github

StableDiffusionEndToEndGuide

安定した拡散のエンドツーエンドガイド - 初心者から専門家まで

免責事項と情報源

遊んでみてください！

目次

WebUIの基本

ローカル GPU の使用状況を設定する

Linuxのセットアップ

さらに深くなる

プロンプト

NovelAIモデル

LoRA

モデルで遊ぶ

VAE

すべてをまとめて

一般的な SD プロセス

プロンプトの保存

txt2imgの設定

以前に生成したイメージの再生成

エラーのトラブルシューティング

快適になる

テスト

WebUI の詳細

プロンプト編集

エクスフォーマー

img2img

修復

上塗り

エクストラ

コントロールネット

新しいものを作る

新しいモデルのトレーニング

チェックポイントのマージ

LoRA のトレーニング

Google Colab のセットアップ

旅の途中

MJパラメータ

MJ Advancedプロンプト

Dreamstudio

安定した大群

ドリームブース

ビデオ拡散

廃棄物