SD3.5 및 SD3의 추론 전용 소형 참조 구현 - 가중치 파일을 제외하고 SD3.5/SD3를 사용한 간단한 추론에 필요한 모든 것입니다.
텍스트 인코더(OpenAI CLIP-L/14, OpenCLIP bigG, Google T5-XXL)(이러한 모델은 모두 공개됨), VAE 디코더(이전 SD 모델과 유사하지만 16채널 및 사후 양자 변환 단계 없음)에 대한 코드가 포함되어 있습니다. 그리고 핵심 MM-DiT(완전히 새로운).
참고: 이 저장소는 파트너 조직이 SD3.5/SD3을 구현하는 데 도움을 주기 위한 참조 라이브러리입니다. 대체 추론을 위해서는 Comfy를 사용하세요.
HuggingFace에서 다음 모델을 models
디렉터리로 다운로드합니다.
이 코드는 Stability AI SD3 Medium에서도 작동합니다.
# Note: on windows use "python" not "python3"
python3 -s -m venv .sd3.5
source .sd3.5/bin/activate
# or on windows: venv/scripts/activate
python3 -s -m pip install -r requirements.txt
# Generate a cat using SD3.5 Large model (at models/sd3.5_large.safetensors) with its default settings
python3 sd3_infer.py --prompt " cute wallpaper art of a cat "
# Or use a text file with a list of prompts, using SD3.5 Large
python3 sd3_infer.py --prompt path/to/my_prompts.txt --model models/sd3.5_large.safetensors
# Generate from prompt file using SD3.5 Large Turbo with its default settings
python3 sd3_infer.py --prompt path/to/my_prompts.txt --model models/sd3.5_large_turbo.safetensors
# Generate from prompt file using SD3.5 Medium with its default settings, at 2k resolution
python3 sd3_infer.py --prompt path/to/my_prompts.txt --model models/sd3.5_medium.safetensors --width 1920 --height 1080
# Generate from prompt file using SD3 Medium with its default settings
python3 sd3_infer.py --prompt path/to/my_prompts.txt --model models/sd3_medium.safetensors
이미지는 기본적으로 outputs/
로 출력됩니다. 출력 디렉터리에 접미사를 추가하려면 --postfix
추가하세요. 예를 들어,
python3 sd3_infer.py --prompt path/to/my_prompts.txt --postfix " steps100 " --steps 100
생성된 이미지의 해상도를 변경하려면 --width
를 추가하세요.
선택적으로 SD3.5-Medium의 더 나은 구조 및 해부학적 일관성을 위해 Skip Layer Guidance를 사용하십시오.
python3 sd3_infer.py --prompt path/to/my_prompts.txt --model models/sd3.5_medium.safetensors --skip_layer_cfg True
sd3_infer.py
- 진입점, 확산 모델의 기본 사용법을 검토합니다.sd3_impls.py
- MMDiTX 및 VAE 주변의 래퍼를 포함합니다.other_impls.py
- CLIP 모델, T5 모델 및 일부 유틸리티가 포함되어 있습니다.mmditx.py
- MMDiT-X 자체의 핵심을 포함합니다.models
(별도 다운로드):clip_l.safetensors
(SDXL/SD3와 동일한 OpenAI CLIP-L은 공개 복사본을 가져올 수 있음)clip_g.safetensors
(SDXL/SD3와 동일한 openclip bigG는 공개 복사본을 가져올 수 있음)t5xxl.safetensors
(google T5-v1.1-XXL, 공개 사본을 얻을 수 있음)sd3.5_large.safetensors
또는 sd3.5_large_turbo.safetensors
또는 sd3.5_medium.safetensors
(또는 sd3_medium.safetensors
)여기에 포함된 코드는 다음에서 유래되었습니다.
LICENSE-CODE 파일을 확인하세요.
other_impls
의 일부 코드는 HuggingFace에서 시작되었으며 HuggingFace Transformers Apache2 라이선스가 적용됩니다.