SD3.5 および SD3 の推論専用の小さなリファレンス実装 - 重みファイルを除く、SD3.5/SD3 を使用した単純な推論に必要なものすべて。
テキスト エンコーダー (OpenAI CLIP-L/14、OpenCLIP bigG、Google T5-XXL) (これらのモデルはすべて公開されています)、VAE デコーダー (以前の SD モデルに似ていますが、16 チャネルで postquantconv ステップがありません) のコードが含まれています。そしてコアの MM-DiT (まったく新しい)。
注: このリポジトリは、パートナー組織による SD3.5/SD3 の実装を支援することを目的としたリファレンス ライブラリです。代替推論には Comfy を使用します。
次のモデルを HuggingFace からmodels
ディレクトリにダウンロードします。
このコードは Stability AI SD3 Medium でも機能します。
# Note: on windows use "python" not "python3"
python3 -s -m venv .sd3.5
source .sd3.5/bin/activate
# or on windows: venv/scripts/activate
python3 -s -m pip install -r requirements.txt
# Generate a cat using SD3.5 Large model (at models/sd3.5_large.safetensors) with its default settings
python3 sd3_infer.py --prompt " cute wallpaper art of a cat "
# Or use a text file with a list of prompts, using SD3.5 Large
python3 sd3_infer.py --prompt path/to/my_prompts.txt --model models/sd3.5_large.safetensors
# Generate from prompt file using SD3.5 Large Turbo with its default settings
python3 sd3_infer.py --prompt path/to/my_prompts.txt --model models/sd3.5_large_turbo.safetensors
# Generate from prompt file using SD3.5 Medium with its default settings, at 2k resolution
python3 sd3_infer.py --prompt path/to/my_prompts.txt --model models/sd3.5_medium.safetensors --width 1920 --height 1080
# Generate from prompt file using SD3 Medium with its default settings
python3 sd3_infer.py --prompt path/to/my_prompts.txt --model models/sd3_medium.safetensors
画像はデフォルトで、 outputs/
に出力されます。出力ディレクトリに接尾辞を追加するには、 --postfix
を追加します。例えば、
python3 sd3_infer.py --prompt path/to/my_prompts.txt --postfix " steps100 " --steps 100
生成された画像の解像度を変更するには、 --width
を追加します。
オプションで、SD3.5-Medium の構造と解剖学的構造の一貫性が向上する可能性があるため、スキップ レイヤ ガイダンスを使用します。
python3 sd3_infer.py --prompt path/to/my_prompts.txt --model models/sd3.5_medium.safetensors --skip_layer_cfg True
sd3_infer.py
- エントリ ポイント。拡散モデルの基本的な使用法についてはこれを確認してください。sd3_impls.py
- MMDiTX と VAE のラッパーが含まれていますother_impls.py
- CLIP モデル、T5 モデル、およびいくつかのユーティリティが含まれていますmmditx.py
- MMDiT-X 自体のコアが含まれていますmodels
(別途ダウンロード):clip_l.safetensors
(OpenAI CLIP-L、SDXL/SD3 と同じ、パブリック コピーを取得できます)clip_g.safetensors
(openclip bigG、SDXL/SD3 と同じ、パブリック コピーを取得できます)t5xxl.safetensors
(Google T5-v1.1-XXL、公開コピーを取得できます)sd3.5_large.safetensors
またはsd3.5_large_turbo.safetensors
またはsd3.5_medium.safetensors
(またはsd3_medium.safetensors
)ここに含まれるコードは次のものに由来します。
ライセンスコードファイルを確認してください。
other_impls
の一部のコードは HuggingFace に由来しており、HuggingFace Transformers Apache2 ライセンスの対象となります。