Gradio ライブラリを使用して実装された Stable Diffusion の Web インターフェイス。
画像付きの詳細な機能ショーケース:
オリジナルの txt2img および img2img モード
ワンクリックでインストールしてスクリプトを実行します (ただし、Python と git をインストールする必要があります)
上塗り
修復
カラースケッチ
プロンプトマトリックス
安定した普及の高級品
注意、モデルがより注意を払うべきテキストの部分を指定してください
((tuxedo))
を着た男性 - タキシードにもっと注意を払うでしょう
a man in a (tuxedo:1.21)
- 代替構文
テキストを選択してCtrl+Up
またはCtrl+Down
(MacOS を使用している場合はCommand+Up
またはCommand+Down
) を押すと、選択したテキストへの注目が自動的に調整されます (匿名ユーザーによって提供されたコード)
ループバック、img2img 処理を複数回実行
X/Y/Z プロット、さまざまなパラメーターを使用して画像の 3 次元プロットを描画する方法
テキストの反転
必要な数の埋め込みを持ち、好きな名前を使用できます
トークンごとに異なる数のベクトルを持つ複数の埋め込みを使用する
半精度浮動小数点数を扱う
8GB で埋め込みをトレーニングします (6GB が動作したという報告もあります)
[エクストラ] タブ:
GFPGAN、顔を固定するニューラルネットワーク
CodeFormer、GFPGAN の代替となる顔復元ツール
RealESRGAN、ニューラル ネットワーク アップスケーラー
ESRGAN、多くのサードパーティ モデルを備えたニューラル ネットワーク アップスケーラー
SwinIR および Swin2SR (こちらを参照)、ニューラル ネットワーク アップスケーラー
LDSR、潜在拡散超解像アップスケーリング
アスペクト比のサイズ変更オプション
サンプリング方法の選択
サンプラーの eta 値 (ノイズ乗数) を調整する
より高度なノイズ設定オプション
随時割り込み処理
4GB ビデオカードのサポート (2GB の動作報告もあり)
バッチの正しいシード
ライブプロンプトのトークン長検証
生成パラメータ
画像の生成に使用したパラメータはその画像とともに保存されます
PNG の場合は PNG チャンク、JPEG の場合は EXIF
画像を PNG 情報タブにドラッグして生成パラメータを復元し、それらを UI に自動的にコピーできます
設定で無効にすることができます
画像/テキストパラメータをプロンプトボックスにドラッグアンドドロップします
[生成パラメータの読み取り] ボタン。プロンプトボックスのパラメータを UI にロードします。
設定ページ
UI からの任意の Python コードの実行 (有効にするには--allow-code
を指定して実行する必要があります)
ほとんどの UI 要素のマウスオーバーヒント
テキスト設定を介してUI要素のデフォルト/ミックス/最大/ステップ値を変更可能
タイリングのサポート、テクスチャのようにタイル表示できる画像を作成するためのチェックボックス
プログレスバーとライブ画像生成プレビュー
別個のニューラル ネットワークを使用して、VRAM やコンピューティング要件をほとんど必要とせずにプレビューを生成できます
ネガティブプロンプト、生成された画像に表示したくないものをリストできる追加のテキストフィールド
スタイル、プロンプトの一部を保存し、後でドロップダウンから簡単に適用する方法
バリエーション、同じ画像を生成する方法ですが、わずかな違いがあります
シードのサイズ変更。同じ画像をわずかに異なる解像度で生成する方法
CLIP インタロゲータ、画像からプロンプトを推測しようとするボタン
プロンプト編集、世代の途中でプロンプトを変更する方法。スイカを作り始めて途中でアニメの女の子に切り替えると言います。
バッチ処理、img2img を使用してファイルのグループを処理する
Img2img クロスアテンション制御の代替逆オイラー法
Highres Fix は、ワンクリックで通常の歪みを発生させずに高解像度の画像を生成する便利なオプションです。
チェックポイントをその場でリロードする
チェックポイント マージャー、最大 3 つのチェックポイントを 1 つにマージできるタブ
コミュニティからの多くの拡張機能を備えたカスタム スクリプト
Composable-Diffusion、複数のプロンプトを一度に使用する方法
大文字のAND
使用してプロンプトを区切る
プロンプトの重みもサポートしています: a cat :1.2 AND a dog AND a penguin :2.2
プロンプトのトークン制限なし (元の安定した拡散では最大 75 トークンを使用できます)
DeepDanbooru の統合、アニメ プロンプト用の danbooru スタイルのタグを作成
xformers、一部のカードの速度が大幅に向上: (コマンドライン引数に--xformers
追加)
拡張機能経由: [履歴] タブ: UI 内で画像を簡単に表示、指示、削除できます。
永久に生成オプション
トレーニングタブ
ハイパーネットワークと埋め込みオプション
画像の前処理: BLIP または deepdanbooru を使用したトリミング、ミラーリング、自動タグ付け (アニメ用)
クリップスキップ
ハイパーネットワーク
Loras (ハイパーネットワークと同じですが、より美しい)
プロンプトに追加する埋め込み、ハイパーネットワーク、または Loras をプレビューで選択できる別の UI
設定画面から別の VAE をロードすることを選択できます
進行状況バーの推定完了時間
API
RunwayML による専用の修復モデルのサポート
拡張機能経由: Aesthetic Gradients、クリップ画像の埋め込みを使用して特定の美学を持つ画像を生成する方法 (https://github.com/vicgalle/stable-diffusion-aesthetic-gradients の実装)
Stable Diffusion 2.0 のサポート - 手順については wiki を参照してください。
Alt-Diffusion のサポート - 手順については Wiki を参照してください
これで汚い文字はなくなりました!
セーフテンサー形式でチェックポイントをロードする
解像度制限の緩和: 生成される画像のサイズは 64 ではなく 8 の倍数である必要があります。
これで免許証も付いた!
設定画面から UI の要素を並べ替える
Segmind 安定拡散サポート
必要な依存関係が満たされていることを確認し、次の手順に従ってください。
NVidia (推奨)
AMD GPU。
Intel CPU、Intel GPU (統合型および個別型の両方) (外部 wiki ページ)
Ascend NPU (外部 wiki ページ)
あるいは、オンライン サービス (Google Colab など) を使用します。
オンラインサービス一覧
v1.0.0-pre からsd.webui.zip
をダウンロードし、その内容を抽出します。
update.bat
を実行します。
run.bat
を実行します。
詳細については、「NVidia GPU でのインストールと実行」を参照してください。
Python 3.10.6 (新しいバージョンの Python は torch をサポートしていません) をインストールし、「Python を PATH に追加」にチェックを入れます。
gitをインストールします。
たとえば、 git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
を実行して、stable-diffusion-webui リポジトリをダウンロードします。
Windows エクスプローラーから通常の非管理者ユーザーとしてwebui-user.bat
を実行します。
依存関係をインストールします。
# Debian ベース:sudo apt install wget git python3 python3-venv libgl1 libglib2.0-0# Red Hat ベース:sudo dnf install wget git python3 gperftools-libs libglvnd-glx# openSUSE ベース:sudo zypper install wget git python3 libtcmalloc4 libglvnd# Arch ベース:sudo pacman -S wget git python3
システムが非常に新しい場合は、python3.11 または python3.10 をインストールする必要があります。
# Ubuntu 24.04sudo add-apt-repository ppa:deadsnakes/ppa sudo aptアップデート sudo apt install python3.11# Manjaro/Archsudo pacman -S yay yay -S python311 # python3.11 パッケージと混同しないでください# 3.11 のみ# 次に、起動 scriptexport python_cmd="python3.11"# または webui-user.shpython_cmd="python3.11" で環境変数を設定します
WebUI をインストールするディレクトリに移動し、次のコマンドを実行します。
wget -q https://raw.githubusercontent.com/AUTOMATIC1111/stable-diffusion-webui/master/webui.sh
または、必要な場所にリポジトリのクローンを作成するだけです。
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui
webui.sh
を実行します。
オプションについてはwebui-user.sh
を確認してください。
手順については、こちらをご覧ください。
このリポジトリにコードを追加する方法は次のとおりです。
ドキュメントはこの README からプロジェクトの wiki に移動されました。
Google やその他の検索エンジンに Wiki をクロールしてもらうために、(人間向けではない) クロール可能な Wiki へのリンクをここに示します。
借用したコードのライセンスはSettings -> Licenses
画面、およびhtml/licenses.html
ファイルにあります。
安定した拡散 - https://github.com/Stability-AI/stablediffusion、https://github.com/CompVis/taming-transformers、https://github.com/mcmonkey4eva/sd3-ref
k-diffusion - https://github.com/crowsonkb/k-diffusion.git
Spandrel - https://github.com/chaiNNer-org/spandrel の実装
GFPGAN - https://github.com/TencentARC/GFPGAN.git
CodeFormer - https://github.com/sczhou/CodeFormer
ESRGAN - https://github.com/xinntao/ESRGAN
SwinIR - https://github.com/JingyunLiang/SwinIR
Swin2SR - https://github.com/mv-lab/swin2sr
LDSR - https://github.com/Hafiidz/latent-diffusion
MiDaS - https://github.com/isl-org/MiDaS
最適化のアイデア - https://github.com/basujindal/stable-diffusion
Cross Attendant レイヤーの最適化 - Doggettx - https://github.com/Doggettx/stable-diffusion、プロンプト編集のためのオリジナルのアイデア。
クロス アテンション レイヤーの最適化 - InvokeAI、lstein - https://github.com/invoke-ai/InvokeAI (元々は http://github.com/lstein/stable-diffusion)
二次二次クロスアテンション層の最適化 - Alex Birch (Birch-san/diffusers#1)、Amin Rezaei (https://github.com/AminRezaei0x443/memory-efficient-attention)
テキスト反転 - Rinon Gal - https://github.com/rinongal/textual_inversion (私たちは彼のコードを使用していませんが、彼のアイデアを使用しています)。
SD アップスケールのアイデア - https://github.com/jquesnelle/txt2imghd
mk2 をアウトペイントするためのノイズ生成 - https://github.com/parlance-zz/g-diffuser-bot
CLIP インタロゲーターのアイデアとコードの借用 - https://github.com/pharmapsychotic/clip-interrogator
コンポーザブル拡散のアイデア - https://github.com/energy-based-model/Compositional-Visual-Generation-with-Composable-Diffusion-Models-PyTorch
xformers - https://github.com/facebookresearch/xformers
DeepDanbooru - アニメディフューザーの質問者 https://github.com/KichangKim/DeepDanbooru
float16 UNet からの float32 精度でのサンプリング - アイデアは marune さん、ディフューザーの実装例は Birch さん (https://github.com/Birch-san/diffusers-play/tree/92feee6)
pix2pix を指示する - ティム・ブルックス (スター)、アレクサンダー・ホリンスキー (スター)、アレクセイ・A・エフロス (スターなし) - https://github.com/timothybrooks/instruct-pix2pix
セキュリティに関するアドバイス - RyutaK
UniPC サンプラー - Wenliang Zhao - https://github.com/wl-zhao/UniPC
TAESD - オーリン・ボーア・ボーハン - https://github.com/madebyollin/taesd
LyCORIS - 琥珀ブルーリーフ
サンプリングの再開 - lambertae - https://github.com/Newbeeer/diffusion_restart_sampling
ハイパータイル - tfernd - https://github.com/tfernd/HyperTile
初期の Gradio スクリプト - 匿名ユーザーによって 4chan に投稿されました。匿名ユーザーさん、ありがとうございます。
(あなた)