Gradio 라이브러리를 사용하여 구현된 Stable Diffusion용 웹 인터페이스입니다.
이미지가 포함된 자세한 기능 쇼케이스:
원본 txt2img 및 img2img 모드
한 번의 클릭으로 스크립트 설치 및 실행(단, 여전히 Python 및 git을 설치해야 함)
아웃페인팅
인페인팅
컬러 스케치
프롬프트 매트릭스
안정확산형 고급화
Attention, 모델이 더 주의를 기울여야 할 텍스트 부분을 지정합니다.
a man in a ((tuxedo))
- 턱시도에 더 많은 관심을 기울일 것입니다
a man in a (tuxedo:1.21)
- 대체 구문
텍스트를 선택하고 Ctrl+Up
또는 Ctrl+Down
(또는 MacOS의 경우 Command+Up
또는 Command+Down
)을 눌러 선택한 텍스트(익명의 사용자가 제공한 코드)에 대한 주의를 자동으로 조정합니다.
루프백, img2img 처리를 여러 번 실행
X/Y/Z 플롯, 다양한 매개변수를 사용하여 이미지의 3차원 플롯을 그리는 방법
텍스트 반전
원하는 만큼의 임베딩을 갖고 원하는 이름을 사용하세요.
토큰당 벡터 수가 다른 여러 임베딩을 사용합니다.
반 정밀도 부동 소수점 숫자로 작동합니다.
8GB에 대한 학습 임베딩(6GB 작업 보고도 있음)
다음이 포함된 추가 탭:
얼굴을 수정하는 신경망, GFPGAN
CodeFormer, GFPGAN의 대안으로 얼굴 복원 도구 제공
RealESRGAN, 신경망 업스케일러
ESRGAN, 다양한 타사 모델을 갖춘 신경망 업스케일러
SwinIR 및 Swin2SR(여기 참조), 신경망 업스케일러
LDSR, 잠재 확산 초해상도 업스케일링
종횡비 옵션 크기 조정
샘플링 방법 선택
샘플러 에타 값 조정(노이즈 승수)
고급 소음 설정 옵션
언제든지 인터럽트 처리
4GB 비디오 카드 지원(2GB 작동 보고도 있음)
배치에 대한 올바른 시드
실시간 프롬프트 토큰 길이 검증
생성 매개변수
이미지를 생성하는 데 사용한 매개변수는 해당 이미지와 함께 저장됩니다.
PNG의 경우 PNG 청크, JPEG의 경우 EXIF
이미지를 PNG 정보 탭으로 드래그하여 생성 매개변수를 복원하고 UI에 자동으로 복사할 수 있습니다.
설정에서 비활성화할 수 있습니다
이미지/텍스트 매개변수를 프롬프트 상자에 끌어다 놓습니다.
생성 매개변수 읽기 버튼, 프롬프트 상자의 매개변수를 UI로 로드
설정 페이지
UI에서 임의의 Python 코드 실행(활성화하려면 --allow-code
사용하여 실행해야 함)
대부분의 UI 요소에 대한 마우스 오버 힌트
텍스트 구성을 통해 UI 요소의 기본값/혼합/최대/단계 값 변경 가능
타일링 지원, 텍스처처럼 타일링할 수 있는 이미지를 생성하는 체크박스
진행률 표시줄 및 실시간 이미지 생성 미리보기
별도의 신경망을 사용하여 VRAM이나 컴퓨팅 요구 사항이 거의 없는 미리 보기를 생성할 수 있습니다.
생성된 이미지에서 보고 싶지 않은 내용을 나열할 수 있는 추가 텍스트 필드인 부정적인 프롬프트
스타일, 프롬프트의 일부를 저장하고 나중에 드롭다운을 통해 쉽게 적용하는 방법
변형, 동일한 이미지를 생성하지만 약간의 차이가 있는 방법
시드 크기 조정, 동일한 이미지를 생성하지만 해상도가 약간 다른 방법
CLIP 질문기, 이미지에서 메시지를 추측하는 버튼
프롬프트 편집, 프롬프트 미드세대를 바꾸는 방법, 수박 만들기를 시작하고 중간에 애니메이션 소녀로 전환하자고
일괄 처리, img2img를 사용하여 파일 그룹 처리
Img2img 대체, 교차 주의 제어의 역 오일러 방법
일반적인 왜곡 없이 한 번의 클릭으로 고해상도 사진을 생성할 수 있는 편리한 옵션인 Highres Fix
즉시 체크포인트 다시 로드
체크포인트 병합(Checkpoint Merger)은 최대 3개의 체크포인트를 하나로 병합할 수 있는 탭입니다.
커뮤니티의 다양한 확장 기능을 갖춘 사용자 정의 스크립트
여러 프롬프트를 동시에 사용하는 방법인 Composable-Diffusion
대문자 AND
사용하여 별도의 프롬프트
프롬프트에 대한 가중치도 지원합니다: a cat :1.2 AND a dog AND a penguin :2.2
프롬프트에 대한 토큰 제한 없음(원래 안정적인 확산을 통해 최대 75개의 토큰을 사용할 수 있음)
DeepDanbooru 통합으로 애니메이션 프롬프트에 대한 danbooru 스타일 태그 생성
xformers, 일부 카드의 주요 속도 증가: (명령줄 인수에 --xformers
추가)
확장 기능을 통해: 기록 탭: UI 내에서 편리하게 이미지 보기, 지시 및 삭제
영원히 생성 옵션
훈련 탭
하이퍼네트워크 및 임베딩 옵션
이미지 전처리: BLIP 또는 deepdanbooru(애니메이션용)를 사용한 자르기, 미러링, 자동 태그 지정
클립 건너뛰기
하이퍼네트워크
Loras (Hypernetworks와 동일하지만 더 예쁘다)
미리보기를 통해 프롬프트에 추가할 임베딩, 하이퍼네트워크 또는 Loras를 선택할 수 있는 별도의 UI
설정 화면에서 다른 VAE를 로드하도록 선택할 수 있습니다.
진행률 표시줄의 예상 완료 시간
API
RunwayML의 전용 인페인팅 모델 지원
확장을 통해: Aesthetic Gradients, 클립 이미지 삽입을 사용하여 특정 미학적 이미지를 생성하는 방법(https://github.com/vicgalle/stable-diffusion-aesthetic-gradients 구현)
Stable Diffusion 2.0 지원 - 지침은 Wiki를 참조하세요.
Alt-Diffusion 지원 - 지침은 Wiki를 참조하세요.
이제 나쁜 글자도 없이!
safetensors 형식으로 체크포인트 로드
완화된 해상도 제한: 생성된 이미지의 크기는 64가 아닌 8의 배수여야 합니다.
이제 라이센스로!
설정 화면에서 UI 요소 재정렬
Segmind 안정 확산 지원
필수 종속성이 충족되었는지 확인하고 다음 지침을 따르세요.
엔비디아(권장)
AMD GPU.
Intel CPU, Intel GPU(통합형 및 개별형 모두)(외부 위키 페이지)
Ascend NPU(외부 위키 페이지)
또는 Google Colab과 같은 온라인 서비스를 사용하세요.
온라인 서비스 목록
v1.0.0-pre에서 sd.webui.zip
다운로드하고 해당 내용을 추출합니다.
update.bat
실행하세요.
run.bat
실행하세요.
자세한 내용은 NVidia-GPU 설치 및 실행을 참조하세요.
Python 3.10.6(최신 버전의 Python은 토치를 지원하지 않음)을 설치하고 "PATH에 Python 추가"를 선택합니다.
자식을 설치하십시오.
예를 들어 git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
실행하여 stable-diffusion-webui 저장소를 다운로드합니다.
관리자가 아닌 일반 사용자로 Windows 탐색기에서 webui-user.bat
실행합니다.
종속성을 설치합니다.
# Debian 기반:sudo apt install wget git python3 python3-venv libgl1 libglib2.0-0# Red Hat 기반:sudo dnf install wget git python3 gperftools-libs libglvnd-glx# openSUSE 기반:sudo zypper install wget git python3 libtcmalloc4 libglvnd# 아치 기반:sudo pacman -S wget git python3
시스템이 매우 새로운 경우 python3.11 또는 python3.10을 설치해야 합니다.
# 우분투 24.04sudo add-apt-repository ppa:deadsnakes/ppa sudo 적절한 업데이트 sudo apt install python3.11# Manjaro/Archsudo pacman -S yay yay -S python311 # python3.11 패키지와 혼동하지 마세요# 3.11에만 해당# 그런 다음 실행 스크립트export python_cmd="python3.11"# 또는 webui-user.shpython_cmd="python3.11"에서 env 변수를 설정합니다.
webui를 설치하려는 디렉터리로 이동하여 다음 명령을 실행합니다.
wget -q https://raw.githubusercontent.com/AUTOMATIC1111/stable-diffusion-webui/master/webui.sh
아니면 원하는 곳에 저장소를 복제하세요.
자식 클론 https://github.com/AUTOMATIC1111/stable-diffusion-webui
webui.sh
실행합니다.
옵션은 webui-user.sh
확인하세요.
여기에서 지침을 찾으세요.
이 저장소에 코드를 추가하는 방법은 다음과 같습니다.
문서는 이 README에서 프로젝트의 위키로 옮겨졌습니다.
Google 및 기타 검색 엔진이 위키를 크롤링하도록 하기 위해 여기에 (사람용이 아닌) 크롤링 가능한 위키에 대한 링크가 있습니다.
대여한 코드에 대한 라이센스는 Settings -> Licenses
화면과 html/licenses.html
파일에서 찾을 수 있습니다.
안정적인 확산 - https://github.com/Stability-AI/stablediffusion, https://github.com/CompVis/taming-transformers, https://github.com/mcmonkey4eva/sd3-ref
k-확산 - https://github.com/crowsonkb/k-diffusion.git
Spandrel - https://github.com/chaiNNer-org/spandrel 구현
GFPGAN - https://github.com/TencentARC/GFPGAN.git
CodeFormer - https://github.com/sczhou/CodeFormer
ESRGAN - https://github.com/xinntao/ESRGAN
SwinIR - https://github.com/JingyunLiang/SwinIR
Swin2SR - https://github.com/mv-lab/swin2sr
LDSR - https://github.com/Hafiidz/latent-diffusion
MiDaS - https://github.com/isl-org/MiDaS
최적화를 위한 아이디어 - https://github.com/basujindal/stable-diffusion
Cross Attention 레이어 최적화 - Doggettx - https://github.com/Doggettx/stable-diffusion, 신속한 편집을 위한 독창적인 아이디어.
Cross Attention 레이어 최적화 - InvokeAI, lstein - https://github.com/invoke-ai/InvokeAI(원래 http://github.com/lstein/stable-diffusion)
Sub-quadratic Cross Attention 레이어 최적화 - Alex Birch(Birch-san/diffusers#1), Amin Rezaei(https://github.com/AminRezaei0x443/memory-efficient-attention)
텍스트 반전 - Rinon Gal - https://github.com/rinongal/textual_inversion (우리는 그의 코드를 사용하지 않지만 그의 아이디어를 사용하고 있습니다).
SD 업스케일 아이디어 - https://github.com/jquesnelle/txt2imghd
아웃페인팅 mk2를 위한 노이즈 생성 - https://github.com/parlance-zz/g-diffuser-bot
CLIP 질문자 아이디어 및 일부 코드 차용 - https://github.com/pharmapsychotic/clip-interrogator
컴포저블 확산에 대한 아이디어 - https://github.com/energy-based-model/Compositional-Visual-Generation-with-Composable-Diffusion-Models-PyTorch
Xformers - https://github.com/facebookresearch/xformers
DeepDanbooru - 애니메이션 디퓨저에 대한 질문자 https://github.com/KichangKim/DeepDanbooru
float16 UNet에서 float32 정밀도로 샘플링 - 아이디어는 marunine, 디퓨저 구현 예는 Birch-san(https://github.com/Birch-san/diffusers-play/tree/92feee6)
pix2pix 지시 - Tim Brooks(별), Aleksander Holynski(별), Alexei A. Efros(별 없음) - https://github.com/timothybrooks/instruct-pix2pix
보안 조언 - RyotaK
UniPC 샘플러 - Wenliang Zhao - https://github.com/wl-zhao/UniPC
TAESD - Ollin Boer Bohan - https://github.com/madebyollin/taesd
LyCORIS - 코하쿠블루리프
샘플링 다시 시작 - Lambertae - https://github.com/Newbeeer/diffusion_restart_sampling
Hypertile - tfernd - https://github.com/tfernd/HyperTile
초기 Gradio 스크립트 - 익명 사용자가 4chan에 게시했습니다. 익명의 사용자님 감사합니다.
(너)