Unduhan StableDiffusionEndToEndGuide - Unduhan kode sumber StableDiffusionEndToEndGuide

StableDiffusionEndToEndGuide

Kode sumber lainnya

1.0.0

Unduh

Panduan End-to-End Difusi Stabil - Dari Noob hingga Expert

Saya menjadi tertarik menggunakan SD untuk menghasilkan gambar untuk aplikasi militer. Sebagian besar sumber daya diambil dari papan NSFW 4chan, karena segera menggunakan SD untuk membuat hentai. Menariknya, SD WebUI kanonik memiliki fungsionalitas bawaan dengan papan gambar anime/hentai... Salah satu kasus penggunaan SD pertama tepat setelah DALL-E menghasilkan gadis-gadis anime, jadi lompatan ke hentai tidaklah mengejutkan.

Bagaimanapun, teknik dari orang-orang aneh ini dapat diterapkan pada berbagai aplikasi, terutama LoRA, yang seperti model fine-tuner. Idenya adalah untuk bekerja dengan LoRA tertentu (misalnya, kendaraan militer, pesawat terbang, senjata, dll.) untuk menghasilkan data gambar sintetis untuk melatih model visi. Melatih LoRA yang baru dan bermanfaat juga merupakan hal yang menarik. Hal-hal selanjutnya mungkin termasuk pengecatan ulang untuk gangguan.

Penafian dan Sumber

Every link here may contain NSFW content, as most of the cutting-edge work on SD and LoRAs is with porn or hentai. So, please be wary when you are working with these resources. ALSO, Rentry.org pages are the main resources linked to in this guide. If any of the rentry pages do not work, change the .org to .co and the link should work. Otherwise, use the Wayback machine.

-TP

Mainkan Dengan Itu!

Apa yang sebenarnya dapat Anda lakukan dengan SD? Huggingface dan beberapa lainnya memiliki beberapa aplikasi di browser untuk Anda. Bermain-main dengan mereka untuk melihat kekuatannya! Apa yang akan kita lakukan dalam panduan ini adalah mendapatkan WebUI lengkap dan dapat diperluas untuk memungkinkan kita melakukan apa pun yang kita inginkan.

Teks Huggingface ke Gambar SD Playground
Aplikasi Teks ke Gambar SD Dreamstudio
Aplikasi Dezgo Teks ke Gambar SD
Gambar Huggingface ke Gambar SD Playground
Taman Bermain Lukisan Huggingface

Daftar isi

Dasar-dasar WebUI
1. Atur penggunaan GPU Lokal
  1. Pengaturan Linux
2. Menjadi Lebih Dalam
  1. Dorongan
3. Model NovelAI
4. LoRA
5. Bermain dengan Model
6. VAE
7. Gabungkan semuanya
  1. Proses SD Umum
  2. Menyimpan Anjuran
  3. Pengaturan txt2img
  4. Meregenerasi Gambar yang Dibuat Sebelumnya
  5. Mengatasi Masalah Kesalahan
8. Menjadi Nyaman
9. Pengujian
WebUI Lanjutan
1. Pengeditan Cepat
2. Xformer
3. Gambar2Img
4. melukis
5. Ekstra
6. Jaringan Kontrol
7. Membuat Barang Baru (WIP)
  1. Penggabungan Pos Pemeriksaan
  2. Pelatihan LoRA
  3. Melatih Model Baru
Penyiapan Google Colab (WIP)
Tengah perjalanan
1. Parameter MJ
2. Perintah Lanjutan MJ
Studio Impian (WIP)
Gerombolan Stabil (WIP)
Booth Impian (WIP)
Difusi Video (WIP)

Dasar-dasar WebUI

Agak menakutkan untuk membahas hal ini... tetapi 4channer telah melakukan pekerjaan yang baik sehingga membuat hal ini mudah didekati. Di bawah ini adalah langkah-langkah yang saya ambil, dalam istilah yang paling sederhana. Tujuan Anda adalah menjalankan WebUI Difusi Stabil (dibangun dengan Gradio) secara lokal sehingga Anda dapat mulai meminta dan membuat gambar.

Atur Penggunaan GPU Lokal

Kami akan melakukan penyiapan Google Colab Pro nanti, sehingga kami dapat menjalankan SD di perangkat apa pun di mana pun kami mau; tapi untuk memulai, mari kita siapkan WebUI di PC. Anda memerlukan RAM 16 GB, GPU dengan VRAM 2 GB, Windows 7+, dan ruang disk 20+ GB.

Selesaikan panduan pengaturan awal
- Saya mengikuti ini hingga langkah 7, setelah itu masuk ke hal-hal hentai
- Langkah 3 membutuhkan waktu rata-rata kecepatan Internet 15-45 menit, karena masing-masing model berukuran 5+ GB
- Langkah 7 dapat memakan waktu hingga setengah jam dan mungkin tampak "macet" di CLI
- Pada langkah 3 saya mengunduh SD1.5, bukan versi 2.x, karena 1.5 memberikan hasil yang jauh lebih baik
- CivitAI memiliki semua model SD; ini seperti HuggingFace tetapi khusus untuk SD
Verifikasi bahwa WebUI berfungsi
1. Copy URL keluaran CLI setelah selesai, misal 127.0.0.1:7860 ( JANGAN gunakan Ctrl+C karena perintah ini dapat menutup CLI)
2. Rekatkan ke browser dan voila; coba prompt dan Anda berangkat ke balapan
3. Gambar akan disimpan secara otomatis ketika dibuat ke stable-diffusion-webuioutputstxt2img-images<date>
Ingat, untuk mengupdate, cukup buka CLI di folder stable-diffusion-webui dan masukkan perintah git pull

Pengaturan Linux

Abaikan ini sepenuhnya jika Anda memiliki Windows. Saya berhasil menjalankannya di Linux juga, meskipun sedikit lebih rumit. Saya mulai dengan mengikuti panduan ini, tetapi tulisannya agak buruk, jadi di bawah ini adalah langkah-langkah yang saya ambil untuk menjalankannya di Linux. Saya menggunakan Linux Mint 20, yang merupakan distribusi Ubuntu 20.

Mulailah dengan mengkloning repo webui: git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
Dapatkan model SD (misalnya SD 1.5, seperti di bagian sebelumnya)
Masukkan file model ckpt ke dalam stable-diffusion-webui/models/Stable-diffusion
Unduh Python (jika Anda belum memilikinya): sudo apt install python3 python3-pip python3-virtualenv wget git
Dan WebUI sangat khusus, jadi kita perlu menginstal Conda, manajer lingkungan virtual, untuk bekerja di dalam:

 wget https://repo.anaconda.com/miniconda/Minconda3-latest-Linux-x86_64.sh
chmod +x Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh

Sekarang buat lingkungan: conda create --name sdwebui python=3.10.6
Aktifkan lingkungan: conda activate sdwebui
Arahkan ke folder WebUI Anda dan ketik ./webui.sh
Itu harus dijalankan sebentar sampai Anda mendapatkan kesalahan karena tidak dapat mengakses CUDA/GPU Anda... ini baik-baik saja, karena ini adalah langkah kami selanjutnya
Mulailah dengan menghapus semua driver Nvidia yang ada:

 sudo apt update
sudo apt purge *nvidia*

Sekarang, ikuti beberapa bagian dari panduan ini, cari tahu GPU apa yang dimiliki mesin Linux Anda (cara termudah untuk melakukannya adalah dengan membuka aplikasi Driver Manager dan GPU Anda akan terdaftar; tetapi ada banyak cara, cukup Google saja)
Buka halaman ini dan klik "Cabang Fitur Baru Terbaru" di Linux x86_64 (bagi saya, itu adalah 530.xx.xx)
Klik tab "Produk yang Didukung" dan Ctrl + F untuk menemukan GPU Anda; jika terdaftar, lanjutkan, jika tidak mundur dan coba "Versi Cabang Produksi Terbaru"; catat nomornya, misal 530
Di terminal, ketik: sudo add-apt-repository ppa:graphics-drivers/ppa
Perbarui dengan sudo apt-get update
Luncurkan aplikasi Driver Manager dan Anda akan melihat daftarnya; JANGAN pilih yang direkomendasikan (misal, nvidia-driver-530-open), pilih yang sama persis dari sebelumnya (misal, nvidia-driver-530), dan Terapkan Perubahan; ATAU, instal di terminal dengan sudo apt-get install nvidia-driver-530
PADA TITIK INI, Anda akan mendapatkan popup melalui CLI Anda tentang Boot Aman, yang meminta Anda memasukkan kata sandi 8 digit: atur dan tuliskan
Nyalakan ulang PC Anda dan sebelum enkripsi/login pengguna, Anda akan melihat layar seperti BIOS (saya menulis ini dari memori) dengan opsi untuk memasukkan kunci MOK; klik dan masukkan kata sandi Anda, lalu kirim dan boot; beberapa info di sini
Masuk seperti biasa dan ketik perintah nvidia-smi ; jika berhasil, ia akan mencetak tabel; jika tidak, ia akan mengatakan sesuatu seperti "Tidak dapat terhubung ke GPU; pastikan driver terbaru telah diinstal"
Sekarang untuk menginstal CUDA (perintah terakhir di sini akan mencetak beberapa informasi tentang instalasi CUDA baru Anda); dari panduan ini:

 sudo apt update
sudo apt install apt-transport-https ca-certificates gnupg
sudo apt install nvidia-cuda-toolkit
nvcc-version

Sekarang kembali dan lakukan langkah 7-9; jika Anda mendapatkan "ERROR: Cannot activation python venv, aborting...", lanjutkan ke langkah berikutnya (jika tidak, Anda akan melanjutkan balapan dan akan menyalin alamat IP dari CLI seperti biasa dan dapat mulai bermain dengan SD)
Masalah Github ini memiliki beberapa pemecahan masalah untuk masalah venv ini... bagi saya, yang berhasil adalah berjalan

 python3 -c 'import venv'
python3 -m venv venv/

Dan kemudian pergi ke folder /stable-diffusion-webui dan menjalankan:

 rm -rf venv/
python3 -m venv venv/

Setelah itu, itu berhasil untuk saya.

Menjadi Lebih Dalam

Bacalah teknik-teknik prompting, karena ada banyak hal yang perlu diketahui (misalnya, prompt positif vs. prompt negatif, langkah-langkah pengambilan sampel, metode pengambilan sampel, dll.)
- Panduan Buku Prompt OpenArt
- Panduan Definitif SD Prompt
- Panduan bisikan yang ringkas
- Tip prompt 4chan (NSFW)
- Koleksi petunjuk dan gambar
- Panduan Anjuran Gadis Anime Langkah demi Langkah
Baca pengetahuan SD secara umum:
- Publikasi Difusi Stabil Mani
- CompVis / Stability AI Github (rumah bagi model SD asli)
- Ringkasan Difusi Stabil (sumber daya luar yang bagus)
- Hub Tautan Difusi Stabil (sumber daya 4chan yang luar biasa)
- Tambang Emas Difusi Stabil
- Tambang Emas SD yang disederhanakan
- Acak/Lain-lain. Tautan SD
- Pertanyaan Umum (NSFW)
- Pertanyaan Umum lainnya
Bergabunglah dengan Perselisihan Difusi Stabil
Tetap up to date dengan berita Difusi Stabil
- Tahukah Anda bahwa mulai Maret 2023, model difusi teks-ke-video dengan parameter 1,7 miliar telah tersedia?
Berantakan di WebUI, bermain dengan berbagai model, pengaturan, dll.

Dorongan

Urutan kata dalam prompt mempunyai pengaruh: kata-kata sebelumnya diutamakan. Struktur umum prompt yang bagus, dari sini:

<general positives> <descriptors of subject> <descriptors of background> <post-processing, camera, etc.>

Dan panduan bagus lainnya mengatakan bahwa perintahnya harus mengikuti struktur ini:

<subject> <medium> <style> <artist> <website> <resolution> <additional details> <color> <lighting>

Makalah penting tentang rekayasa cepat model txt2img, di sini. Sumber daya pasti tentang permintaan LLM, di sini.

Apa pun yang Anda minta, cobalah mengikuti semacam struktur sehingga proses Anda dapat ditiru. Di bawah ini adalah elemen sintaks prompt yang diperlukan:

() = pengubah x1.05
[] = pengubah /1.05
(kata:1.05) == (kata)
(kata:1.1025) == ((kata))
(kata:.952) == [kata]
(kata:.907) == [[kata]]
Kata kunci AND memungkinkan Anda meminta dua perintah terpisah sekaligus untuk menggabungkannya; bagus agar segala sesuatunya tidak saling bertabrakan di ruang laten
- Misalnya, 1girl standing on grass in front of castle AND castle in background

Model NovelAI

Model standarnya cukup rapi tetapi, seperti yang biasanya terjadi dalam sejarah, seks mendorong banyak hal. NovelAI (NAI) adalah layanan pembuatan konten SD yang berfokus pada anime dan model utamanya telah bocor. Sebagian besar gambar anime pria dan wanita buatan SD yang Anda lihat (NSFW atau tidak) berasal dari model yang bocor ini.

Bagaimanapun, ini sangat bagus dalam menghasilkan orang dan sebagian besar model atau LoRA yang akan Anda mainkan dengan penggabungan kompatibel dengannya karena mereka dilatih tentang gambar anime. Selain itu, manusia menghadirkan kasus penggunaan awal yang sangat baik untuk menyempurnakan LoRA yang ingin Anda gunakan untuk tujuan profesional. Anda akan memecahkan banyak masalah dan sebagian besar panduan di luar sana ditujukan untuk gambar wanita. Nanti kita akan membahas variabel auto-encoder (VAE), yang menghadirkan realisme sejati pada model.

Ikuti Panduan Speedrun NovelAI
- Anda harus melakukan Torrent pada model yang bocor atau menemukannya di tempat lain
Setelah Anda memasukkan file ke dalam folder untuk WebUI, stable-diffusion-webuimodelsStable-diffusion , dan memilih model di sana, Anda harus menunggu beberapa menit sementara CLI memuat bobot VAE
- Jika Anda mengalami masalah di sini, salin file config.yaml dari folder tempat model berada dan ikuti skema penamaan yang sama (seperti dalam panduan ini)
Ini penting... Buat ulang gambar Asuka dengan tepat, mengacu pada panduan pemecahan masalah jika tidak cocok
Temukan model SD dan LoRA baru
- CivitAI
- wajah berpelukan
- Model SDG
- Beban Utama Model SDG (NSFW)
- Beban Utama SDG LoRA (NSFW)
- Banyak model populer (juga panduan petunjuk dari sebelumnya) (NSFW)

LoRA

Adaptasi Tingkat Rendah (LoRA) memungkinkan penyesuaian untuk model tertentu. Info lebih lanjut tentang LoRA di sini. Di WebUI, Anda dapat menambahkan LoRA ke model seperti lapisan gula pada kue. Melatih LoRA baru juga cukup mudah. Ada cara lain yang bersifat "nenek moyang" untuk melakukan penyesuaian (misalnya, inversi tekstual dan hypernetwork), namun LoRA adalah yang paling canggih.

ZTZ99A Tank - tank militer LoRA (tank tertentu)
Jet Tempur - jet tempur LoRA
epi_noiseoffset - LoRA yang membuat gambar menonjol, meningkatkan kontras

Saya akan menggunakan tangki LoRA sepanjang panduan ini. Harap dicatat bahwa ini bukan LoRA yang sangat bagus, karena dimaksudkan untuk gambar bergaya anime, tetapi tidak masalah untuk dimainkan.

Ikuti panduan cepat ini untuk menginstal ekstensi
Anda sekarang akan melihat bagian "Jaringan Tambahan" di UI
Masukkan LoRA Anda ke stable-diffusion-webuiextensionssd-webui-additional-networksmodelslora
Pilih dan pergi
- PASTIKAN ANDA MEMERIKSA 'AKTIFKAN'
- Ketahuilah bahwa LoRA apa pun yang Anda unduh mungkin memiliki info yang menjelaskan cara menggunakannya... seperti "gunakan kata kunci tangki" atau semacamnya; pastikan dari mana pun Anda mendownloadnya (misalnya, CivitAI), Anda membaca deskripsinya

Bermain dengan Model

Berdasarkan bagian sebelumnya... model yang berbeda memiliki data pelatihan dan kata kunci pelatihan yang berbeda... jadi menggunakan tag booru pada beberapa model tidak berfungsi dengan baik. Di bawah ini adalah beberapa model yang saya mainkan dan "instruksinya" untuk model tersebut.

SDG Model Motherload, digunakan untuk mendapatkan sebagian besar model, saya hanya merangkum instruksi di sini untuk referensi cepat; sebagian besar modelnya ditujukan untuk pornografi literal, saya fokus pada model yang realistis. Ikuti tautan untuk melihat contoh petunjuk, gambar, dan catatan mendetail tentang penggunaan masing-masing petunjuk tersebut.

Model SD default (1.5, dari langkah penyiapan; Anda dapat bermain dengan SD versi 2.x tetapi sejujurnya, itu jelek)
Model NovelAI (dari panduan pertama)
Apa pun v3 - model anime tujuan umum
Dreamshaper - realisme, serba guna
Disengaja - realisme, fantasi, lukisan, pemandangan
Neverending Dream - realisme, fantasi, baik untuk manusia dan hewan
- Menggunakan sistem tag booru
Difusi Epik - ultra-realisme, dimaksudkan untuk menggantikan SD asli
AbyssOrangeMix (AOM) - anime, realisme, artistik, lukisan, sangat umum dan bagus untuk pengujian
Kotosmix - tujuan umum, realisme, anime, pemandangan, orang, DPM++ 2M Karras sampler direkomendasikan

CivitAI digunakan untuk mendapatkan yang lainnya. Anda perlu membuat akun jika tidak, Anda tidak akan dapat melihat barang-barang NSFW, termasuk senjata dan peralatan militer. Di CivitAI, beberapa model (pos pemeriksaan) menyertakan VAE; jika dinyatakan demikian, unduh juga dan letakkan di samping model.

ChilloutMix - ultra-realisme, potret, salah satu yang paling populer
Protogen x3.4 - ultra-realisme
- Gunakan kata-kata pemicu: gaya modelshoot, gaya analog, gaya mdjrny-v4, robot nousr
Dreamlike Photoreal 2.0 - ultra-realisme
- Gunakan kata pemicu: fotorealistik
Perangkat SPYBG untuk Seniman Digital - realisme, seni konsep
- Gunakan kata pemicu: tk-char, tk-env

VAE

Autoencoder Variabel membuat gambar terlihat lebih baik, lebih tajam, dan tidak terlalu pecah-pecah. Beberapa juga memperbaiki tangan dan wajah. Tapi itu sebagian besar soal saturasi dan bayangan. Dijelaskan di sini dan di sini (NSFW). NovelAI / Anything VAE biasanya digunakan. Ini pada dasarnya merupakan tambahan pada model Anda, seperti LoRA.

Temukan VAE di Daftar VAE:

NAI / Apapun - untuk model anime
- Dilengkapi dengan model NAI secara default saat Anda memasukkannya ke dalam folder model
SD 1.5 - untuk model realistis

Unduh VAE
Ikuti bagian singkat panduan ini untuk menyiapkan VAE di WebUI
- Pastikan untuk meletakkannya di stable-diffusion-webuimodelsVAE
Bermain-main dengan membuat gambar dengan dan tanpa VAE Anda, untuk melihat perbedaannya

Gabungkan semuanya

Berikut adalah beberapa catatan umum dan hal-hal bermanfaat yang saya pelajari selama ini yang belum tentu sesuai dengan alur kronologis panduan ini.

Proses SD Umum

Cara yang baik untuk mempelajarinya adalah dengan menelusuri gambar keren di CivitAI, AIbooru atau situs SD lainnya (4chan, Reddit, dll.), buka apa yang Anda suka dan salin parameter pembuatan ke WebUI. Pengungkapan penuh: membuat ulang gambar secara persis tidak selalu memungkinkan, seperti yang dijelaskan di sini. Tapi biasanya Anda bisa cukup dekat. Untuk benar-benar bermain-main, turunkan CFG agar model menjadi lebih kreatif. Cobalah batch dan menjauhlah dari komputer untuk kembali ke banyak hal untuk dipilih.

Proses umum untuk alur kerja WebUI adalah:

find/pick models/LoRAs -> txt2img (repeat, change params, etc.) -> img2img -> inpainting -> extra ->

txt2img - meminta dan mendapatkan gambar
img2img - mengedit gambar dan menghasilkan gambar serupa
inpainting - mengedit bagian gambar (akan dibahas nanti)
ekstra - pengeditan gambar akhir (akan dibahas nanti)

Menyimpan Anjuran

Terkadang Anda ingin kembali ke perintah tanpa menempelkan gambar atau menulisnya dari awal. Anda dapat menyimpan perintah untuk menggunakannya kembali di WebUI.

Tulis perintah positif dan/atau negatif
Di bawah tombol Hasilkan, klik tombol di sebelah kanan untuk menyimpan "gaya" Anda
Masukkan nama dan simpan
Pilih kapan saja dengan mengeklik tarik-turun Gaya

Pengaturan txt2img

Bagian ini kurang lebih merupakan intisari dari informasi panduan ini.

Lebih banyak langkah pengambilan sampel umumnya berarti lebih akurat (kecuali untuk sampel "a", seperti Euler a, yang sering berubah)
Mainkan dan matikan ini; secara umum, jika diaktifkan, itu benar-benar membuat wajah terlihat bagus
Tinggi. perbaikan bagus untuk gambar di atas 512x512; berguna jika ada lebih dari satu orang dalam satu gambar
CFG paling baik pada nilai rendah-menengah, seperti 5-10

Meregenerasi Gambar yang Dibuat Sebelumnya

Untuk bekerja dari gambar yang dihasilkan SD yang sudah ada; mungkin seseorang mengirimkannya kepada Anda atau Anda ingin membuat ulang yang Anda buat:

Di WebUI, buka tab Info PNG
Seret dan lepas gambar yang Anda minati ke UI
- Mereka disimpan di stable-diffusion-webuioutputstxt2img-images<date>
Lihat parameter yang digunakan di sebelah kanan
- Berfungsi karena PNG dapat menyimpan metadata
Anda dapat mengirimkannya langsung ke halaman txt2img dengan tombol yang sesuai
- Mungkin harus memeriksa bolak-balik untuk memastikan model, VAE, dan parameter lainnya terisi secara otomatis dengan benar

Hati-hati, beberapa situs menghapus metadata PNG saat gambar diunggah (misalnya, 4chan), jadi carilah URL ke gambar lengkap atau gunakan situs yang mempertahankan metadata SD, seperti CivitAI atau AIbooru.

Mengatasi Masalah Kesalahan

Saya mendapat beberapa kesalahan sesekali. Sebagian besar kesalahan kehabisan memori (VRAM) yang diperbaiki dengan menurunkan nilai pada beberapa parameter. Terkadang wajah Pemulihan dan Karyawan. pengaturan perbaikan dapat menyebabkan hal ini. Dalam file stable-diffusion-webuiwebui-user.bat , pada baris set COMMANDLINE_ARGS= , Anda dapat meletakkan beberapa tanda yang memperbaiki kesalahan umum.

Kesalahan NaN, sesuatu seperti "VAE menghasilkan sesuatu NaN", tambahkan parameter --disable-nan-check
Jika Anda mendapatkan gambar hitam, tambahkan --no-half
Jika Anda terus kehabisan VRAM, tambahkan --medvram atau untuk komputer kentang, --lowvram
Perbaikan wajah Codeformer diperbaiki di sini (jika rusak, coba reset Internet Anda terlebih dahulu)
Pemuatan model yang lambat (saat beralih ke yang baru) mungkin karena file .safetensors dimuat dengan lambat jika ada yang tidak dikonfigurasi dengan benar. Thread ini membahasnya.

Salah satu masalah yang sangat umum berasal dari versi Python atau versi Torch yang salah. Anda akan mendapatkan kesalahan seperti "tidak dapat menginstal Torch" atau "Torch tidak dapat menemukan GPU". Perbaikan paling sederhana adalah:

Copot pemasangan versi Python apa pun yang telah Anda perbarui, karena SD WebUI mengharapkan 3.10.6 (Saya telah menggunakan 3.11.5 dan mengabaikan kesalahan awal, tetapi 3.10.6 tampaknya berfungsi paling baik) (Anda juga dapat menggunakan manajer versi jika Anda sudah cukup mahir)
Instal Python 3.10.6, pastikan untuk menambahkannya ke PATH Anda (folder Python dan folder Python/Scripts )
Hapus folder venv di folder stable-diffusion-webui Anda
Jalankan stable-diffusion-webuiwebui-user.bat dan biarkan venv dibangun kembali dengan benar
Menikmati

Semua argumen baris perintah dapat ditemukan di sini.

Menjadi Nyaman

Beberapa ekstensi dapat membuat penggunaan WebUI menjadi lebih baik. Dapatkan tautan Github, buka tab Ekstensi, instal dari URL; opsional, di Tab Ekstensi, klik Tersedia, lalu Muat Dari dan Anda dapat menelusuri ekstensi secara lokal, ini mencerminkan ekstensi wiki Github.

Tag Completer - merekomendasikan dan melengkapi tag booru secara otomatis saat Anda mengetik
Status UI Web Difusi Stabil - mempertahankan status UI bahkan setelah memulai ulang
Uji Perintah Saya - skrip yang dapat Anda jalankan untuk menghapus setiap kata dari perintah Anda untuk melihat pengaruhnya terhadap pembuatan gambar
Model-Keyword - mengisi otomatis kata kunci yang terkait dengan beberapa model dan LoRA, cukup terpelihara dengan baik dan terkini pada April 2023
Pemeriksa NSFW - menghitamkan gambar NSFW; berguna jika Anda bekerja di kantor, karena banyak model bagus yang mengizinkan konten NSFW dan Anda mungkin tidak ingin melihatnya di tempat kerja
- HATI-HATI: ekstensi ini dapat mengacaukan pengecatan atau bahkan pembuatan dengan menghitamkan gambar NSFW (tidak sementara, ekstensi ini justru menghasilkan gambar hitam), jadi pastikan untuk mematikannya sesuai kebutuhan
Gelbooru Prompt - menarik tag dan membuat prompt otomatis dari gambar Gelbooru mana pun menggunakan hashnya
booru2prompt - mirip dengan Gelbooru Prompt tetapi fungsinya lebih banyak
Prompt Dinamis - bahasa templat untuk pembuatan prompt yang memungkinkan Anda menjalankan perintah acak atau kombinatorial untuk menghasilkan berbagai gambar (menggunakan wildcard)
- Dijelaskan lebih lanjut di sini
Toolkit model - ekstensi populer yang membantu Anda mengelola, mengedit, dan membuat model
Pengonversi Model - berguna untuk mengonversi model, mengubah presisi, dll., saat Anda melatih model Anda sendiri

Pengujian

Jadi sekarang Anda memiliki beberapa model, LoRA, dan petunjuknya... bagaimana Anda dapat menguji untuk melihat mana yang terbaik? Di bawah panel Jaringan Tambahan, ada dropdown Script. Di sini, klik plot X/Y/Z. Pada tipe X, pilih Nama pos pemeriksaan; di nilai X, klik tombol di sebelah kanan untuk menempelkan semua model Anda. Pada tipe Y, coba skala VAE, atau mungkin seed, atau CFG. Atribut apa pun yang Anda pilih, tempelkan (atau masukkan) nilai yang ingin Anda buat grafiknya. Misalnya, jika Anda memiliki 5 model dan 5 VAE, Anda akan membuat kisi berisi 25 gambar, membandingkan keluaran setiap model dengan setiap VAE. Ini sangat serbaguna dan dapat membantu Anda memutuskan apa yang akan digunakan. Berhati-hatilah jika sumbu X atau Y Anda adalah model VAE, maka harus memuat model atau bobot VAE untuk setiap kombinasi, sehingga dapat memakan waktu cukup lama.

Sumber yang sangat bagus tentang perbandingan SD dapat ditemukan di sini (NSFW). Ada banyak tautan untuk diikuti. Anda dapat mulai memahami bagaimana berbagai model, VAE, LoRA, nilai parameter, dan sebagainya memengaruhi pembuatan gambar.

Saya mengadopsi test prompt dari sini dan menggunakan tangki LoRA untuk membuat grid X/Y ini. Anda dapat melihat bagaimana berbagai model dan sampler bekerja satu sama lain. Dari pengujian ini, kita dapat mengevaluasi bahwa:

Model ChilloutMix, Deliberate, Dreamlike Photoreal, dan Epic Diffusion tampaknya menghasilkan gambar tangki yang paling "realistis"
- Dalam pengujian independen selanjutnya, ditemukan bahwa Protogen X34 Photorealism dan SpyBGs Toolkit juga cukup bagus dalam menangani tank.
Sampler yang paling menjanjikan di sini tampaknya adalah DPM++ SDE atau sampler Karras lainnya.

tank

Parameter pasti yang digunakan (tidak termasuk model atau sampler) untuk setiap gambar tangki diberikan di bawah (sekali lagi, diambil dari sini):

Perintah positif: tank, bf2042, Kualitas terbaik, mahakarya, resolusi sangat tinggi, (fotorealistik: 1.4), kulit mendetail, pencahayaan sinematik, sinematik sangat detail, penuh warna, Foto modern, sekelompok tentara di medan perang, ledakan medan perang di mana-mana, jet tempur dan helikopter terbang di langit, dua tank di tanah, Di daerah gurun, bangunan terbakar dan satu kendaraan lapis baja militer ditinggalkan di latar belakang
Perintah negatif: telanjang, (kualitas terburuk:2), (kualitas rendah:2), (kualitas normal:2), gambar rendah, anatomi buruk, tangan jelek, kualitas normal, ((monokrom)), ((skala abu-abu)), roboh eyeshadow, beberapa eyeblow, rambut merah muda, lubang di payudara, ng_deepnegative_v1_75t, nsfw, puting, jari ekstra, ((lengan ekstra)), (kaki ekstra), tangan bermutasi, (jari menyatu), (jari terlalu banyak), (leher panjang: 1.3)
Langkah-langkah: 22
Skala CFG: 7,5
Benih: 1656460887
Ukuran: 480x480
Lewati klip: 2
AddNet Diaktifkan: Benar, Modul AddNet 1: LoRA, Model AddNet 1: ztz99ATank_ztz99ATank(82a1a1085b2b), Berat AddNet A 1:1, Berat AddNet B 1:1

WebUI Lanjutan

Di bagian ini adalah hal-hal lebih lanjut yang dapat Anda lakukan setelah Anda memahami penggunaan model, LoRA, VAE, prompt, parameter, skrip, dan ekstensi di tab txt2image di WebUI.

Pengeditan Cepat

Juga dikenal sebagai pencampuran cepat. Pengeditan cepat memungkinkan Anda membuat model mengubah perintahnya pada langkah-langkah tertentu. Gambar di bawah ini diambil dari postingan 4chan dan menjelaskan tekniknya. Misalnya, seperti yang dinyatakan dalam panduan ini, pengeditan cepat dapat digunakan untuk memadukan wajah.

Xformer

Xformers, atau lapisan perhatian silang. Cara untuk mempercepat pembuatan gambar (diukur dalam detik/iterasi, atau s/it) pada GPU Nvidia, menurunkan penggunaan VRAM tetapi menyebabkan non-determinisme. Pertimbangkan ini hanya jika Anda memiliki GPU yang kuat; secara realistis Anda membutuhkan Quadro.

img2img

Tidak terlalu banyak digunakan, semacam tab yang membingungkan. Dapat digunakan untuk menghasilkan gambar yang diberikan sketsa, seperti di Huggingface Image to Image SD Playground. Tab ini memiliki sub-tab, inpainting, yang merupakan subjek bagian selanjutnya dan kemampuan WebUI yang sangat penting. Meskipun Anda dapat menggunakan bagian ini untuk menghasilkan gambar yang diubah berdasarkan gambar yang sudah Anda buat (output ke stable-diffusion-webuioutputsimg2img-images ), bagi saya fungsinya tidak stabil... tampaknya menggunakan jumlah memori yang sangat besar dan Saya hampir tidak bisa membuatnya berfungsi. Lanjutkan ke bagian berikutnya di bawah.

melukis

Di sinilah letak kekuasaan pembuat konten atau seseorang yang tertarik dengan gangguan gambar. Outputnya ada di stable-diffusion-webuioutputsimg2img-images .

Panduan pengecatan dan pengecatan luar
Lukisan 4chan (NSFW)
Panduan inpainting yang pasti

Ambil gambar yang Anda sukai tetapi gambar tersebut tidak sempurna, ada yang tidak beres - gambar tersebut perlu diubah
- Atau buat satu dan klik Kirim ke inpaint (semua pengaturan akan terisi secara otomatis)
Anda sekarang berada di sub-tab img2img -> inpaint
Gambar (dengan mouse Anda) pada gambar tempat yang ingin Anda ubah
Setel mode mask ke "inpaint masked", konten yang di-mask ke "asli" dan area inpaint ke "only masked"
Di area prompt di atas, tulis prompt baru untuk mengubah titik tersebut pada gambar; lakukan perintah negatif jika Anda mau
Hasilkan gambar (idealnya, lakukan 4 gambar atau lebih)
Apapun yang Anda suka, klik Kirim ke inpaint dan ulangi hingga Anda mendapatkan gambar jadi

Lukisan luar

Pengecatan ulang adalah proses semantik yang agak rumit. Outpainting memungkinkan Anda mengambil gambar dan memperluasnya sebanyak yang Anda inginkan, pada dasarnya memperluas batas gambar tersebut. Prosesnya dijelaskan di sini. Anda memperluas gambar hanya 64 piksel dalam satu waktu. Ada dua alat UI untuk ini (yang dapat saya temukan):

Alpha Canvas (dibangun ke dalam WebUI sebagai ekstensi/skrip)
Hua (aplikasi web untuk inpainting/outpainting)

Ekstra

Tab WebUI ini khusus untuk upscaling. Jika Anda mendapatkan gambar yang sangat Anda sukai, Anda dapat meningkatkannya di sini di akhir alur kerja Anda. Gambar yang ditingkatkan disimpan di stable-diffusion-webuioutputsextras-images . Beberapa masalah memori yang terkait dengan peningkatan dengan peningkatan yang lebih kuat selama pembuatan di tab txt2img (misalnya, yang 4x+) tidak terjadi di sini karena Anda tidak membuat gambar baru, Anda hanya meningkatkan gambar statis.

Jaringan Kontrol

Cara terbaik untuk memahami apa yang dilakukan ControlNet adalah seperti mengatakan "melukis dengan steroid". Anda memberinya gambar masukan (dihasilkan SD atau tidak) dan itu dapat mengubah semuanya. Juga dimungkinkan dengan ControlNets adalah pose. Anda dapat memberikan pose referensi untuk seseorang dan menghasilkan gambar yang sesuai dengan perintah khas Anda. Awal yang baik untuk memahami ControlNets ada di sini.

Instal ekstensi ControlNet, sd-webui-controlnet di WebUI
- Pastikan untuk memuat ulang UI, dengan mengklik tombol Muat Ulang UI di tab pengaturan
Verifikasi bahwa tombol ControlNet sekarang ada di tab txt2img (dan img2img), di bawah Jaringan Tambahan (tempat Anda meletakkan LoRA)
Aktifkan multi model ControlNet: Pengaturan -> ControlNet -> Slider Mutli ControlNet -> 2+
- Muat ulang UI dan di area ControlNet Anda akan melihat beberapa tab model
- Anda dapat menggabungkan ControlNets (misalnya Canny dan OpenPose) seperti menggunakan beberapa LoRA
Dapatkan model ControlNet
- Model Canny adalah model deteksi tepi; gambar diubah menjadi gambar tepi hitam-putih, yang tepinya memberi tahu SD, secara kasar, seperti apa tampilan gambar Anda
- Model OpenPose mengambil gambar seseorang dan mengubahnya menjadi model pose untuk digunakan pada gambar selanjutnya
- Masih banyak model lain yang bisa diselidiki di sana juga
Mari ambil model Canny dan OpenPose
Masukkan ke dalam stable-diffusion-webuiextensionssd-webui-controlnetmodels
Dapatkan gambar apa pun yang Anda minati, atau buat gambar baru; di sini, saya akan menggunakan gambar tank yang saya buat sebelumnya
Pengaturan di txt2img: metode pengambilan sampel "DDIM", langkah pengambilan sampel 20, lebar/tinggi sama dengan gambar yang Anda pilih
Pengaturan di tab ControlNet: centang Aktifkan, Praprosesor "Canny", Model "control_canny-fp16", lebar/tinggi kanvas sama dengan gambar yang Anda pilih (semua pengaturan lainnya default)
Ubah perintah Anda dan klik hasilkan; Saya mencoba mengubah gambar tank saya menjadi gambar di Mars
- Prompt positifnya adalah: pemandangan di mars, luar angkasa, luar angkasa, alam semesta, ((latar belakang ruang galaksi)), bintang, pangkalan bulan, futuristik, latar belakang hitam, latar belakang gelap, bintang di langit, (waktu malam) pasir merah, ((bintang di latar belakang)), tank, bf2042, Kualitas terbaik, mahakarya, resolusi sangat tinggi, (fotorealistik: 1.4), kulit mendetail, pencahayaan sinematik, sinematik sangat detail, penuh warna, Foto modern, sekelompok tentara di medan perang, ledakan medan perang di mana-mana, jet tempur dan helikopter terbang di langit, dua tank di tanah, Di daerah gurun, bangunan terbakar dan satu kendaraan lapis baja militer ditinggalkan di latar belakang, pohon, hutan, langit
Ambil gambar dengan orang-orang di dalamnya dan Anda dapat melakukan model Canny di Control Model - 0 dan model OpenPose di Control Model - 1 untuk benar-benar bersenang-senang dengannya
Sekali lagi, tonton video ini untuk mengetahui lebih dalam tentang Canny dan OpenPose

Membuat Barang Baru

Semuanya baik-baik saja, tetapi terkadang Anda memerlukan model atau LoRA yang lebih baik untuk kasus penggunaan profesional. Karena sebagian besar konten SD secara harfiah dimaksudkan untuk menghasilkan perempuan atau pornografi, model dan LoRA tertentu mungkin perlu dilatih.

Telusuri setiap topik menarik di sini
- Pelatihan LoRA
- kereta LoRA
- Panduan pelatihan LoRA yang malas
- Panduan pelatihan LoRA yang baik dari CivitAI
- Panduan pelatihan LoRA lainnya
- Info LoRA yang lebih umum
- Menggabungkan model
- Pencampuran model

Melatih Model Baru

Lihat bagian di DreamBooth.

Penggabungan Pos Pemeriksaan

TODO

Tab penggabungan checkpoint di WebUI memungkinkan Anda menggabungkan dua model menjadi satu, seperti mencampurkan dua saus dalam panci, yang hasilnya adalah saus baru yang merupakan kombinasi keduanya.

Pelatihan LoRA

TODO

Melatih LoRA tidak selalu sulit, yang penting hanyalah mengumpulkan data yang cukup.

Penyiapan Google Colab

Ini adalah langkah penting jika Anda harus bekerja jauh dari rig Anda. Google Colab Pro berharga 10 dolar sebulan dan memberi Anda 89 GB RAM dan akses ke GPU yang bagus, sehingga Anda secara teknis dapat menjalankan perintah dari ponsel Anda dan membuatnya berfungsi untuk Anda di server di Timbuktu. Jika Anda tidak keberatan dengan sedikit biaya tambahan, Google Colab Pro+ berharga 50 dolar sebulan dan bahkan lebih baik lagi.

Buka SD Colab bawaan ini
Anda dapat mengkloningnya ke GDrive Anda atau hanya menggunakannya sebagaimana adanya sehingga selalu terbaru dari Github
Jalankan 4 blok kode pertama (membutuhkan sedikit waktu)
Lewati blok kode ControlNet
Jalankan 'Start Stable-Diffusion' (membutuhkan sedikit waktu)
- Masukkan nama pengguna/kata sandi jika Anda mau (mungkin ide bagus karena Gradio bersifat publik)
Klik tautan Gradio ('berjalan di URL publik')
Gunakan WebUI seperti biasa
- Kirim tautan ke ponsel Anda dan Anda dapat menghasilkan gambar saat bepergian
Untuk menambahkan model dan LoRA baru, Anda harus memiliki folder baru di Google Drive Anda: gdrive/MyDrive/sd/stable-diffusion-webui , dan dari folder dasar ini Anda dapat menggunakan struktur folder yang sama dengan yang Anda lakukan di lokal UI Web
- Lakukan instalasi ekstensi LoRA seperti sebelumnya dan struktur folder akan terisi otomatis seperti di desktop
Sekarang setiap kali Anda ingin menggunakannya, Anda hanya perlu menjalankan blok kode 'Mulai Difusi Stabil' (tidak ada yang lain), dapatkan tautan gradio dan selesai

Google Colab selalu gratis dan Anda dapat menggunakannya selamanya, namun mungkin agak lambat. Mengupgrade ke Colab Pro seharga $10/bulan memberi Anda lebih banyak kekuatan. Namun Colab Pro+ seharga $50/bulan adalah tempat yang paling menyenangkan. Pro+ memungkinkan Anda menjalankan kode selama 24 jam bahkan setelah Anda menutup tab.

TODO Saya mendapatkan kesalahan aneh yang merusaknya dengan langganan Pro saya ketika saya mengatur runtime -> pengaturan notebook tipe runetime ke kelas GPU Premium dan RAM Tinggi. Itu karena xFormers tidak dibuat dengan dukungan CUDA. Ini dapat diselesaikan dengan menggunakan TPU atau menonaktifkan xFormers tetapi saya tidak memiliki kesabaran untuk itu saat ini. Coba masalah Colab.

Tengah perjalanan

MJ sangat bagus untuk artis. Ini sama sekali tidak dapat diperluas atau sekuat SD di WebUI (NSFW tidak mungkin), tetapi Anda dapat menghasilkan beberapa hal yang cukup mengagumkan. Anda dapat menggunakannya secara gratis di MJ Discord (mendaftar di situs mereka) untuk beberapa petunjuk atau membayar $8/bulan untuk paket dasar, setelah itu Anda dapat menggunakannya di server pribadi Anda. Semua perintah Discord dapat ditemukan di sini dan di sini. Struktur prompt untuk MJ adalah:

/imagine <optional image prompt> <prompt> --parameters

Parameter MJ

Ini untuk MJ V4, sebagian besar sama untuk MJ 5. Semua model dijelaskan di sini.

--ar 1.2-2.1: rasio aspek, defaultnya adalah 1:1
--chaos 0-100: variasi dalam, defaultnya adalah 0
--tidak ada tanaman: menghilangkan tanaman
--q 0.0-2.0: waktu kualitas rendering, defaultnya adalah 1
--seed: benih
--stop 10-100: hentikan pekerjaan di tengah jalan untuk menghasilkan gambar yang lebih buram
--gaya 4a/4b/4c: gaya MJ 4'
--stylize 0-1000: seberapa kuat estetika MJ berjalan bebas, defaultnya adalah 100
--uplight: gunakan upscaler "ringan", gambar kurang detail
--upbeta: gunakan peningkatan beta, mendekati gambar asli
--upanime: peningkatan untuk gambar anime
--niji: model alternatif untuk gambar anime
--hd: gunakan model sebelumnya yang menghasilkan gambar lebih besar, bagus untuk abstrak dan lanskap
--Test: Gunakan model uji MJ khusus
-TestP: Gunakan model uji fotografi MJ khusus
--Tile: Hanya untuk MJ 5, menghasilkan gambar yang berulang
- Pemeriksa Gambar Tilable
--V 1/2/3/4/5: Versi MJ mana yang akan digunakan (5 adalah yang terbaik)

MJ Advanced Prompts

Anda dapat menyuntikkan gambar (atau gambar) ke awal prompt untuk mempengaruhi gaya dan warnanya. Lihat dokumen ini. Unggah gambar ke server Discord Anda dan klik kanan untuk mendapatkan tautan.
Remixing memungkinkan Anda membuat variasi gambar, mengubah model, subjek atau medium. Lihat dokumen ini.
Multi prompt memungkinkan MJ mempertimbangkan dua atau lebih konsep terpisah secara individual. Versi MJ 1-4 dan Niji saja. Misalnya, "hot dog" akan membuat gambar makanan, "hot :: dog" akan membuat gambar anjing hangat. Anda juga dapat menambahkan bobot untuk diminta; Misalnya, "Hot :: 2 Dog" akan membuat gambar anjing terbakar. MJ 1/2/3 menerima bobot integer, MJ 4 dapat menerima desimal. Lihat dokumen ini.
Blending memungkinkan Anda mengunggah 2-5 gambar untuk menggabungkannya menjadi gambar baru. Perintah /campuran dijelaskan di sini.

DreamStudio

TODO

DreamStudio (bukan Dreambooth) adalah platform andalan dari Stability AI Company. Situs mereka adalah platform, Dreambooth Studio, dari mana Anda dapat menghasilkan gambar. Ini semacam terletak di antara midjourney dan webui dalam hal fungsionalitas terbuka. Dreambooth Studio tampaknya dibangun di atas platform Invoke.ai, yang dapat Anda instal dan jalankan secara lokal seperti WebUI.

Gerombolan stabil

TODO

Gerombolan stabil adalah upaya komunitas untuk membuat difusi stabil gratis untuk semua orang. Ini pada dasarnya berfungsi seperti torrenting atau hashing bitcoin, di mana semua orang berkontribusi beberapa kekuatan GPU mereka untuk menghasilkan konten SD. Aplikasi Horde dapat diakses di sini.

Dreambooth

TODO

DreamBooth (bukan DreamStudio) adalah implementasi Google dari teknik fine-tuning model difusi yang stabil. Singkatnya: Anda dapat menggunakannya untuk melatih model dengan gambar Anda sendiri. Anda dapat menggunakannya langsung dari sini atau di sini. Ini lebih kompleks daripada hanya mengunduh model dan mengklik di webui, karena Anda sedang bekerja untuk benar -benar melatih dan membuat serialisasi model baru. Beberapa video merangkum cara melakukannya:

Tutorial Dreambooth Easy
Pelatihan Dreambooth 10 Menit
Ekstensi Webui Dreambooth

Dan beberapa pemandu yang baik:

Nasihat Dreambooth Lanjutan Reddit
Dreambooth sederhana
Dreambooth Dump (banyak info, gulir melalui tautan)

A Google Colab untuk DreamBooth:

Thelastben Dreambooth Training Colab (penulis yang sama dengan SD Colab yang dijelaskan dalam pengaturan Google Colab)

Ada juga pelatih model yang disebut EveryDream. Perbandingan penuh antara Dreambooth dan EveryDream dapat ditemukan di sini.

Difusi video

TODO

Dimungkinkan pada Maret-ish 2023 untuk menggunakan difusi stabil untuk menghasilkan video. Saat ini (April 2023), fungsionalitas agak sederhana, karena video dihasilkan dari gambar yang sama, bingkai demi bingkai, memberikan video semacam tampilan "flipbook". Ada dua ekstensi utama untuk webui yang dapat Anda gunakan: