Petite implémentation de référence uniquement par inférence de SD3.5 et SD3 - tout ce dont vous avez besoin pour une inférence simple à l'aide de SD3.5/SD3, à l'exclusion des fichiers de pondération.
Contient le code pour les encodeurs de texte (OpenAI CLIP-L/14, OpenCLIP bigG, Google T5-XXL) (ces modèles sont tous publics), le décodeur VAE (similaire aux modèles SD précédents, mais 16 canaux et aucune étape de postquantconv), et le noyau MM-DiT (entièrement nouveau).
Remarque : ce référentiel est une bibliothèque de référence destinée à aider les organisations partenaires à mettre en œuvre SD3.5/SD3. Pour une inférence alternative, utilisez Comfy.
Téléchargez les modèles suivants depuis HuggingFace dans le répertoire models
:
Ce code fonctionne également pour Stability AI SD3 Medium.
# Note: on windows use "python" not "python3"
python3 -s -m venv .sd3.5
source .sd3.5/bin/activate
# or on windows: venv/scripts/activate
python3 -s -m pip install -r requirements.txt
# Generate a cat using SD3.5 Large model (at models/sd3.5_large.safetensors) with its default settings
python3 sd3_infer.py --prompt " cute wallpaper art of a cat "
# Or use a text file with a list of prompts, using SD3.5 Large
python3 sd3_infer.py --prompt path/to/my_prompts.txt --model models/sd3.5_large.safetensors
# Generate from prompt file using SD3.5 Large Turbo with its default settings
python3 sd3_infer.py --prompt path/to/my_prompts.txt --model models/sd3.5_large_turbo.safetensors
# Generate from prompt file using SD3.5 Medium with its default settings, at 2k resolution
python3 sd3_infer.py --prompt path/to/my_prompts.txt --model models/sd3.5_medium.safetensors --width 1920 --height 1080
# Generate from prompt file using SD3 Medium with its default settings
python3 sd3_infer.py --prompt path/to/my_prompts.txt --model models/sd3_medium.safetensors
Les images seront sorties vers outputs/
par défaut. Pour ajouter un suffixe au répertoire de sortie, ajoutez --postfix
. Par exemple,
python3 sd3_infer.py --prompt path/to/my_prompts.txt --postfix " steps100 " --steps 100
Pour modifier la résolution de l'image générée, ajoutez --width
.
En option, utilisez Skip Layer Guidance pour une cohérence potentiellement meilleure de la structure et de l’anatomie à partir du SD3.5-Medium.
python3 sd3_infer.py --prompt path/to/my_prompts.txt --model models/sd3.5_medium.safetensors --skip_layer_cfg True
sd3_infer.py
- point d'entrée, consultez ceci pour l'utilisation de base du modèle de diffusionsd3_impls.py
- contient le wrapper autour du MMDiTX et du VAEother_impls.py
- contient les modèles CLIP, le modèle T5 et quelques utilitairesmmditx.py
- contient le noyau du MMDiT-X lui-mêmemodels
de dossiers avec les fichiers suivants (télécharger séparément) :clip_l.safetensors
(OpenAI CLIP-L, identique à SDXL/SD3, peut récupérer une copie publique)clip_g.safetensors
(openclip bigG, identique à SDXL/SD3, peut récupérer une copie publique)t5xxl.safetensors
(google T5-v1.1-XXL, peut récupérer une copie publique)sd3.5_large.safetensors
ou sd3.5_large_turbo.safetensors
ou sd3.5_medium.safetensors
(ou sd3_medium.safetensors
)Le code inclus ici provient de :
Vérifiez le fichier LICENSE-CODE.
Certains codes dans other_impls
proviennent de HuggingFace et sont soumis à la licence Apache2 de HuggingFace Transformers.