เว็บอินเตอร์เฟสสำหรับ Stable Diffusion ใช้งานโดยใช้ไลบรารี Gradio
การแสดงคุณสมบัติโดยละเอียดพร้อมรูปภาพ:
โหมด txt2img และ img2img ดั้งเดิม
คลิกเพียงครั้งเดียวเพื่อติดตั้งและเรียกใช้สคริปต์ (แต่คุณยังต้องติดตั้ง python และ git)
การทาสีภายนอก
การวาดภาพ
ร่างสี
พรอมต์เมทริกซ์
การแพร่กระจายที่เสถียร ระดับสูง
โปรดทราบ ระบุส่วนของข้อความที่โมเดลควรให้ความสำคัญมากขึ้น
ผู้ชายใน ((tuxedo))
- จะให้ความสำคัญกับทักซิโด้มากขึ้น
ผู้ชายใน (tuxedo:1.21)
- ไวยากรณ์ทางเลือก
เลือกข้อความแล้วกด Ctrl+Up
หรือ Ctrl+Down
(หรือ Command+Up
หรือ Command+Down
หากคุณใช้ MacOS) เพื่อปรับความสนใจต่อข้อความที่เลือกโดยอัตโนมัติ (โค้ดที่สนับสนุนโดยผู้ใช้ที่ไม่ระบุชื่อ)
Loopback รันการประมวลผล img2img หลายครั้ง
พล็อต X/Y/Z วิธีการวาดรูปพล็อต 3 มิติด้วยพารามิเตอร์ที่แตกต่างกัน
การผกผันข้อความ
มีการฝังได้มากเท่าที่คุณต้องการและใช้ชื่อใดก็ได้ที่คุณต้องการ
ใช้การฝังหลายรายการโดยมีจำนวนเวกเตอร์ต่างกันต่อโทเค็น
ทำงานร่วมกับตัวเลขจุดลอยตัวที่มีความแม่นยำเพียงครึ่งหนึ่ง
ฝึกการฝังบน 8GB (รายงานการทำงาน 6GB ด้วย)
แท็บพิเศษด้วย:
GFPGAN โครงข่ายประสาทเทียมที่แก้ไขใบหน้า
CodeFormer เครื่องมือฟื้นฟูใบหน้าเป็นทางเลือกแทน GFPGAN
RealESRGAN ตัวขยายเครือข่ายประสาทเทียม
ESRGAN ตัวเพิ่มสเกลเครือข่ายประสาทเทียมพร้อมโมเดลบุคคลที่สามมากมาย
SwinIR และ Swin2SR (ดูที่นี่) ตัวขยายเครือข่ายประสาทเทียม
LDSR, การอัปสเกลความละเอียดสูงแบบการแพร่กระจายแฝง
การปรับขนาดตัวเลือกอัตราส่วนภาพ
การเลือกวิธีการสุ่มตัวอย่าง
ปรับค่าการทางพิเศษแห่งประเทศไทยของตัวอย่าง (ตัวคูณสัญญาณรบกวน)
ตัวเลือกการตั้งค่าเสียงรบกวนขั้นสูงเพิ่มเติม
ขัดจังหวะการประมวลผลได้ตลอดเวลา
รองรับการ์ดแสดงผล 4GB (รายงานการทำงาน 2GB ด้วย)
เมล็ดพันธุ์ที่ถูกต้องสำหรับแบทช์
การตรวจสอบความยาวโทเค็นพร้อมท์สด
พารามิเตอร์การสร้าง
พารามิเตอร์ที่คุณใช้ในการสร้างภาพจะถูกบันทึกพร้อมกับภาพนั้น
ในรูปแบบ PNG สำหรับ PNG และใน EXIF สำหรับ JPEG
สามารถลากรูปภาพไปที่แท็บข้อมูล PNG เพื่อกู้คืนพารามิเตอร์การสร้างและคัดลอกลงใน UI โดยอัตโนมัติ
สามารถปิดการใช้งานได้ในการตั้งค่า
ลากและวางรูปภาพ/พารามิเตอร์ข้อความลงในกล่องข้อความ
ปุ่มอ่านพารามิเตอร์การสร้าง โหลดพารามิเตอร์ในกล่องพร้อมท์ไปยัง UI
หน้าการตั้งค่า
การเรียกใช้โค้ดหลามโดยพลการจาก UI (ต้องรันด้วย --allow-code
เพื่อเปิดใช้งาน)
คำแนะนำการวางเมาส์สำหรับองค์ประกอบ UI ส่วนใหญ่
สามารถเปลี่ยนค่าเริ่มต้น/ผสม/สูงสุด/ขั้นตอนสำหรับองค์ประกอบ UI ผ่านการกำหนดค่าข้อความได้
รองรับการเรียงต่อกัน ช่องทำเครื่องหมายเพื่อสร้างภาพที่สามารถเรียงต่อกันเหมือนพื้นผิวได้
แถบความคืบหน้าและดูตัวอย่างการสร้างภาพสด
สามารถใช้โครงข่ายประสาทเทียมที่แยกจากกันเพื่อสร้างการแสดงตัวอย่างโดยแทบไม่ต้องใช้ VRAM หรือการประมวลผลเลย
พรอมต์เชิงลบ ซึ่งเป็นช่องข้อความเพิ่มเติมที่ให้คุณแสดงรายการสิ่งที่คุณไม่ต้องการเห็นในรูปภาพที่สร้างขึ้น
สไตล์ วิธีการบันทึกส่วนหนึ่งของข้อความแจ้งและนำไปใช้อย่างง่ายดายผ่านเมนูแบบเลื่อนลงในภายหลัง
รูปแบบต่างๆ วิธีสร้างภาพเดียวกันแต่มีความแตกต่างเล็กน้อย
การปรับขนาดเมล็ดเป็นวิธีสร้างภาพเดียวกันแต่มีความละเอียดต่างกันเล็กน้อย
CLIP interrogator ปุ่มที่พยายามคาดเดาข้อความแจ้งจากรูปภาพ
Prompt Editing วิธีเปลี่ยนพรอมท์รุ่นกลาง พูดให้เริ่มทำแตงโมแล้วเปลี่ยนมาเป็นสาวอนิเมะกลางคัน
Batch Processing ประมวลผลกลุ่มไฟล์โดยใช้ img2img
Img2img ทางเลือก วิธีย้อนกลับออยเลอร์ของการควบคุมความสนใจแบบข้าม
Highres Fix ตัวเลือกที่สะดวกสบายในการผลิตภาพที่มีความละเอียดสูงด้วยการคลิกเพียงครั้งเดียวโดยไม่ผิดเพี้ยนตามปกติ
โหลดจุดตรวจได้ทันที
Checkpoint Merger แท็บที่ให้คุณรวมจุดตรวจมากถึง 3 จุดเป็นหนึ่งเดียว
สคริปต์ที่กำหนดเองพร้อมส่วนขยายมากมายจากชุมชน
Composable-Diffusion วิธีใช้พรอมต์หลายรายการพร้อมกัน
แยกพร้อมท์โดยใช้ตัวพิมพ์ใหญ่ AND
ยังรองรับน้ำหนักสำหรับการแจ้งเตือน: a cat :1.2 AND a dog AND a penguin :2.2
ไม่มีการจำกัดโทเค็นสำหรับการแจ้งเตือน (การแพร่กระจายที่เสถียรดั้งเดิมช่วยให้คุณใช้โทเค็นได้สูงสุด 75 โทเค็น)
บูรณาการ DeepDanbooru สร้างแท็กสไตล์ danbooru สำหรับการแจ้งเตือนอะนิเมะ
xformers เพิ่มความเร็วที่สำคัญสำหรับการ์ดที่เลือก: (เพิ่ม --xformers
ไปยัง commandline args)
ผ่านส่วนขยาย: แท็บประวัติ: ดู ควบคุม และลบภาพได้อย่างสะดวกภายใน UI
สร้างตัวเลือกตลอดไป
แท็บการฝึกอบรม
ตัวเลือกไฮเปอร์เครือข่ายและการฝัง
การประมวลผลภาพล่วงหน้า: การครอบตัด การมิเรอร์ การแท็กอัตโนมัติโดยใช้ BLIP หรือ deepdanbooru (สำหรับอนิเมะ)
ข้ามคลิป.
ไฮเปอร์เน็ตเวิร์ก
Loras (เหมือนกับ Hypernetworks แต่สวยกว่า)
UI แยกต่างหากที่คุณสามารถเลือกได้ พร้อมแสดงตัวอย่าง การฝัง ไฮเปอร์เน็ตเวิร์ก หรือ Loras ที่จะเพิ่มในพร้อมท์ของคุณ
สามารถเลือกโหลด VAE อื่นได้จากหน้าจอการตั้งค่า
เวลาที่คาดว่าจะเสร็จสิ้นในแถบความคืบหน้า
เอพีไอ
รองรับโมเดล inpainting โดยเฉพาะโดย RunwayML
ผ่านส่วนขยาย: Aesthetic Gradients วิธีสร้างภาพที่มีความสวยงามเฉพาะเจาะจงโดยใช้การฝังภาพคลิป (การใช้งาน https://github.com/vicgalle/stable-diffusion-aesthetic-gradients)
รองรับ Stable Diffusion 2.0 - ดูคำแนะนำในวิกิ
รองรับ Alt-Diffusion - ดูคำแนะนำในวิกิ
ตอนนี้ไม่มีตัวอักษรที่ไม่ดี!
โหลดจุดตรวจในรูปแบบเซฟเทนเซอร์
ข้อจำกัดด้านความละเอียดที่ผ่อนคลาย: ขนาดของรูปภาพที่สร้างขึ้นจะต้องเป็นพหุคูณของ 8 แทนที่จะเป็น 64
ตอนนี้มีใบอนุญาตแล้ว!
เรียงลำดับองค์ประกอบใน UI ใหม่จากหน้าจอการตั้งค่า
รองรับ Segmind Stable Diffusion
ตรวจสอบให้แน่ใจว่าเป็นไปตามการขึ้นต่อกันที่จำเป็นและปฏิบัติตามคำแนะนำสำหรับ:
NVidia (แนะนำ)
AMD GPU
Intel CPUs, Intel GPUs (ทั้งแบบรวมและแยก) (หน้าวิกิภายนอก)
ขึ้น NPU (หน้าวิกิภายนอก)
หรือใช้บริการออนไลน์ (เช่น Google Colab):
รายการบริการออนไลน์
ดาวน์โหลด sd.webui.zip
จาก v1.0.0-pre และแตกเนื้อหาออกมา
เรียกใช้ update.bat
วิ่ง run.bat
สำหรับรายละเอียดเพิ่มเติม โปรดดูการติดตั้งและเรียกใช้บน NVidia-GPU
ติดตั้ง Python 3.10.6 (Python เวอร์ชันใหม่กว่าไม่รองรับ torch) โดยทำเครื่องหมายที่ "Add Python to PATH"
ติดตั้งคอมไพล์
ดาวน์โหลดพื้นที่เก็บข้อมูล stable-diffusion-webui เช่น โดยการเรียกใช้ git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
เรียกใช้ webui-user.bat
จาก Windows Explorer ในฐานะผู้ใช้ปกติที่ไม่ใช่ผู้ดูแลระบบ
ติดตั้งการพึ่งพา:
# ที่ใช้ Debian: sudo apt ติดตั้ง wget git python3 python3-venv libgl1 libglib2.0-0# ที่ใช้ Red Hat: sudo dnf ติดตั้ง wget git python3 gperftools-libs libglvnd-glx# openSUSE ที่ใช้: sudo zypper ติดตั้ง wget git python3 libtcmalloc4 libglvnd# อิงตามโค้ง: sudo pacman -S wget git python3
หากระบบของคุณใหม่มาก คุณต้องติดตั้ง python3.11 หรือ python3.10:
# Ubuntu 24.04sudo add-apt-repository ppa: deadsnakes/ppa อัปเดต sudo apt sudo apt ติดตั้ง python3.11# Manjaro/Archsudo pacman -S เย้ เย้ -S python311 # อย่าสับสนกับ python3.11 package# สำหรับ 3.11# เท่านั้น จากนั้นตั้งค่าตัวแปร env ใน launch scriptexport python_cmd="python3.11"# หรือใน webui-user.shpython_cmd="python3.11"
นำทางไปยังไดเร็กทอรีที่คุณต้องการให้ติดตั้ง webui และดำเนินการคำสั่งต่อไปนี้:
wget -q https://raw.githubusercontent.com/AUTOMATIC1111/stable-diffusion-webui/master/webui.sh
หรือเพียงแค่โคลน repo ทุกที่ที่คุณต้องการ:
โคลนคอมไพล์ https://github.com/AUTOMATIC1111/stable-diffusion-webui
เรียกใช้ webui.sh
ตรวจสอบตัวเลือก webui-user.sh
ค้นหาคำแนะนำได้ที่นี่
ต่อไปนี้เป็นวิธีเพิ่มโค้ดลงใน repo นี้: การสนับสนุน
เอกสารประกอบถูกย้ายจาก README นี้ไปยังวิกิของโครงการ
เพื่อวัตถุประสงค์ในการให้ Google และเครื่องมือค้นหาอื่นๆ รวบรวมข้อมูลวิกิ ต่อไปนี้คือลิงก์ไปยังวิกิที่สามารถรวบรวมข้อมูลได้ (ไม่ใช่สำหรับมนุษย์)
ใบอนุญาตสำหรับรหัสที่ยืมมาสามารถพบได้ใน Settings -> Licenses
และในไฟล์ html/licenses.html
การแพร่กระจายที่เสถียร - https://github.com/Stability-AI/stablediffusion, https://github.com/CompVis/taming-transformers, https://github.com/mcmonkey4eva/sd3-ref
k-diffusion - https://github.com/crowsonkb/k-diffusion.git
Spandrel - https://github.com/chaiNNer-org/spandrel การใช้งาน
GFPGAN - https://github.com/TencentARC/GFPGAN.git
CodeFormer - https://github.com/sczhou/CodeFormer
ESRGAN - https://github.com/xinntao/ESRGAN
SwinIR - https://github.com/JingyunLiang/SwinIR
Swin2SR - https://github.com/mv-lab/swin2sr
LDSR - https://github.com/Hafiidz/latent-diffusion
มิดาส - https://github.com/isl-org/MiDaS
แนวคิดสำหรับการเพิ่มประสิทธิภาพ - https://github.com/basujindal/stable-diffusion
การเพิ่มประสิทธิภาพเลเยอร์ Cross Attention - Doggettx - https://github.com/Doggettx/stable-diffusion แนวคิดดั้งเดิมสำหรับการแก้ไขที่รวดเร็ว
การเพิ่มประสิทธิภาพเลเยอร์ Cross Attention - InvokeAI, lstein - https://github.com/invoid-ai/InvoidAI (เดิมคือ http://github.com/lstein/stable-diffusion)
การเพิ่มประสิทธิภาพเลเยอร์ Sub-quadratic Cross Attention - Alex Birch (Birch-san/diffusers#1), Amin Rezaei (https://github.com/AminRezaei0x443/memory-efficient-attention)
การผกผันของข้อความ - Rinon Gal - https://github.com/rinongal/textual_inversion (เราไม่ได้ใช้โค้ดของเขา แต่เรากำลังใช้แนวคิดของเขา)
แนวคิดสำหรับการยกระดับ SD - https://github.com/jquesnelle/txt2imghd
การสร้างเสียงรบกวนสำหรับการทาสีภายนอก mk2 - https://github.com/parlance-zz/g-diffuser-bot
CLIP ไอเดียการสอบปากคำและยืมโค้ดบางส่วน - https://github.com/pharmapsychotic/clip-interrogator
แนวคิดสำหรับการแพร่กระจายแบบผสมผสาน - https://github.com/energy-based-model/Compositional-Visual-Generation-with-Composable-Diffusion-Models-PyTorch
xformers - https://github.com/facebookresearch/xformers
DeepDanbooru - ผู้สอบปากคำสำหรับตัวกระจายอนิเมะ https://github.com/KichangKim/DeepDanbooru
การสุ่มตัวอย่างด้วยความแม่นยำ float32 จาก float16 UNet - มารูนีนสำหรับแนวคิดนี้ Birch-san สำหรับตัวอย่างการใช้งาน Diffusers (https://github.com/Birch-san/diffusers-play/tree/92feee6)
สอน pix2pix - Tim Brooks (ดาว), Aleksander Holynski (ดาว), Alexei A. Efros (ไม่มีดาว) - https://github.com/timothybrooks/instruct-pix2pix
คำแนะนำด้านความปลอดภัย - RyotaK
ตัวอย่าง UniPC - Wenliang Zhao - https://github.com/wl-zhao/UniPC
TAESD - โอลลิน โบเออร์ โบฮาน - https://github.com/madebyollin/taesd
ไลโคริส - โคฮาคุบลูลีฟ
เริ่มการสุ่มตัวอย่างใหม่ - lambertae - https://github.com/Newbeeer/diffusion_restart_sampling
ไฮเปอร์ไทล์ - เฟิร์น - https://github.com/tfernd/HyperTile
สคริปต์ Gradio เริ่มต้น - โพสต์บน 4chan โดยผู้ใช้ที่ไม่ระบุชื่อ ขอบคุณผู้ใช้ที่ไม่ระบุชื่อ
(คุณ)