Téléchargement sd3.5 - Téléchargement du code source sd3.5

sd3.5

Autre code source

Télécharger

Diffusion stable 3,5

Petite implémentation de référence uniquement par inférence de SD3.5 et SD3 - tout ce dont vous avez besoin pour une inférence simple à l'aide de SD3.5/SD3, à l'exclusion des fichiers de pondération.

Contient le code pour les encodeurs de texte (OpenAI CLIP-L/14, OpenCLIP bigG, Google T5-XXL) (ces modèles sont tous publics), le décodeur VAE (similaire aux modèles SD précédents, mais 16 canaux et aucune étape de postquantconv), et le noyau MM-DiT (entièrement nouveau).

Remarque : ce dépôt est une bibliothèque de référence destinée à aider les organisations partenaires à mettre en œuvre SD3.5/SD3. Pour une inférence alternative, utilisez Comfy.

Mises à jour

29 octobre 2024 : publication du code d'inférence pour SD3.5-Medium.
24 octobre 2024 : mise à jour de la licence de code vers la licence MIT.
22 octobre 2024 : publication du code d'inférence pour SD3.5-Large, Large-Turbo. Fonctionne également sur SD3-Medium.

Télécharger

Téléchargez les modèles suivants depuis HuggingFace dans le répertoire models :

Stabilité AI SD3.5 Large ou Stabilité AI SD3.5 Large Turbo ou Stabilité AI SD3.5 Medium
OpenAI CLIP-L
OpenCLIP bigG
Google T5-XXL

Ce code fonctionne également pour Stability AI SD3 Medium.

Installer

 # Note: on windows use "python" not "python3"
python3 -s -m venv .sd3.5
source .sd3.5/bin/activate
# or on windows: venv/scripts/activate
python3 -s -m pip install -r requirements.txt

Courir

 # Generate a cat using SD3.5 Large model (at models/sd3.5_large.safetensors) with its default settings
python3 sd3_infer.py --prompt " cute wallpaper art of a cat "
# Or use a text file with a list of prompts, using SD3.5 Large
python3 sd3_infer.py --prompt path/to/my_prompts.txt --model models/sd3.5_large.safetensors
# Generate from prompt file using SD3.5 Large Turbo with its default settings
python3 sd3_infer.py --prompt path/to/my_prompts.txt --model models/sd3.5_large_turbo.safetensors
# Generate from prompt file using SD3.5 Medium with its default settings, at 2k resolution
python3 sd3_infer.py --prompt path/to/my_prompts.txt --model models/sd3.5_medium.safetensors --width 1920 --height 1080
# Generate from prompt file using SD3 Medium with its default settings
python3 sd3_infer.py --prompt path/to/my_prompts.txt --model models/sd3_medium.safetensors

Les images seront sorties vers outputs/<MODEL>/<PROMPT>_<DATETIME>_<POSTFIX> par défaut. Pour ajouter un suffixe au répertoire de sortie, ajoutez --postfix <my_postfix> . Par exemple,

python3 sd3_infer.py --prompt path/to/my_prompts.txt --postfix " steps100 " --steps 100

Pour modifier la résolution de l'image générée, ajoutez --width <WIDTH> --height <HEIGHT> .

En option, utilisez Skip Layer Guidance pour une cohérence potentiellement meilleure de la structure et de l’anatomie à partir du SD3.5-Medium.

python3 sd3_infer.py --prompt path/to/my_prompts.txt --model models/sd3.5_medium.safetensors --skip_layer_cfg True

Guide des fichiers

sd3_infer.py - point d'entrée, consultez ceci pour l'utilisation de base du modèle de diffusion
sd3_impls.py - contient le wrapper autour du MMDiTX et du VAE
other_impls.py - contient les modèles CLIP, le modèle T5 et quelques utilitaires
mmditx.py - contient le noyau du MMDiT-X lui-même
models de dossiers avec les fichiers suivants (télécharger séparément) :
- clip_l.safetensors (OpenAI CLIP-L, identique à SDXL/SD3, peut récupérer une copie publique)
- clip_g.safetensors (openclip bigG, identique à SDXL/SD3, peut récupérer une copie publique)
- t5xxl.safetensors (google T5-v1.1-XXL, peut récupérer une copie publique)
- sd3.5_large.safetensors ou sd3.5_large_turbo.safetensors ou sd3.5_medium.safetensors (ou sd3_medium.safetensors )

Origine du code

Le code inclus ici provient de :

Référentiel de code de recherche interne de Stability AI (MM-DiT)
Référentiels publics d'IA de stabilité (par exemple VAE)
Un code unique pour ce dépôt de référence écrit par Alex Goodwin et Vikram Voleti pour Stability AI
Du code de l'implémentation de la stabilité interne de ComfyUI de SD3 (pour certaines corrections de code et gestionnaires)
HuggingFace et fournisseurs en amont (pour les sections du code CLIP/T5)