واجهة ويب لـ Stable Diffusion، تم تنفيذها باستخدام مكتبة Gradio.
عرض ميزة مفصلة مع الصور:
أوضاع txt2img و img2img الأصلية
نقرة واحدة لتثبيت البرنامج النصي وتشغيله (ولكن لا يزال يتعين عليك تثبيت python وgit)
طلاء خارجي
في الرسم
رسم اللون
مصفوفة سريعة
انتشار مستقر الراقي
انتبه، حدد أجزاء النص التي يجب على النموذج أن يوليها مزيدًا من الاهتمام
رجل يرتدي ((tuxedo))
- سيولي المزيد من الاهتمام لبدلة السهرة
رجل في (tuxedo:1.21)
- بناء جملة بديل
حدد النص واضغط على Ctrl+Up
أو Ctrl+Down
(أو Command+Up
أو Command+Down
إذا كنت تستخدم نظام التشغيل MacOS) لضبط الانتباه تلقائيًا على النص المحدد (الكود الذي ساهم به مستخدم مجهول)
الاسترجاع، قم بتشغيل معالجة img2img عدة مرات
مخطط X/Y/Z، طريقة لرسم مخطط ثلاثي الأبعاد للصور بمعلمات مختلفة
الانقلاب النصي
احصل على العديد من التضمينات التي تريدها واستخدم أي أسماء تريدها لها
استخدم عمليات تضمين متعددة بأعداد مختلفة من المتجهات لكل رمز مميز
يعمل مع أرقام الفاصلة العائمة نصف الدقة
تدريب التضمينات على 8 جيجابايت (أيضًا تقارير عن عمل 6 جيجابايت)
علامة تبويب الإضافات مع:
GFPGAN، الشبكة العصبية التي تعمل على إصلاح الوجوه
CodeFormer، أداة استعادة الوجه كبديل لـ GFPGAN
RealESRGAN، مرقي الشبكة العصبية
ESRGAN، مطور الشبكة العصبية مع الكثير من نماذج الطرف الثالث
SwinIR وSwin2SR (انظر هنا)، مرقيات الشبكة العصبية
LDSR، رفع مستوى الدقة الفائقة للانتشار الكامن
تغيير حجم خيارات نسبة العرض إلى الارتفاع
اختيار طريقة أخذ العينات
ضبط قيم eta لأخذ العينات (مضاعف الضوضاء)
المزيد من خيارات ضبط الضوضاء المتقدمة
مقاطعة المعالجة في أي وقت
دعم بطاقة فيديو بسعة 4 جيجابايت (أيضًا تقارير عن عمل بسعة 2 جيجابايت)
البذور الصحيحة لدفعات
التحقق المباشر من طول الرمز المميز
معلمات الجيل
يتم حفظ المعلمات التي استخدمتها لإنشاء الصور مع تلك الصورة
في قطع PNG لـ PNG، في EXIF لـ JPEG
يمكن سحب الصورة إلى علامة تبويب معلومات PNG لاستعادة معلمات الإنشاء ونسخها تلقائيًا إلى واجهة المستخدم
يمكن تعطيلها في الإعدادات
قم بسحب وإسقاط الصورة/معلمات النص إلى مربع المطالبة
زر قراءة معلمات الإنشاء، يقوم بتحميل المعلمات في مربع المطالبة إلى واجهة المستخدم
صفحة الإعدادات
تشغيل تعليمات برمجية python عشوائية من واجهة المستخدم (يجب تشغيلها باستخدام --allow-code
لتمكينها)
تلميحات تمرير الماوس لمعظم عناصر واجهة المستخدم
من الممكن تغيير القيم الافتراضية/المزيج/الحد الأقصى/الخطوة لعناصر واجهة المستخدم عبر تكوين النص
دعم التبليط، وهو مربع اختيار لإنشاء صور يمكن تجانبها مثل الأنسجة
شريط التقدم ومعاينة توليد الصور الحية
يمكن استخدام شبكة عصبية منفصلة لإنتاج معاينات بدون أي متطلبات VRAM أو متطلبات حسابية تقريبًا
المطالبة السلبية، وهي حقل نصي إضافي يسمح لك بإدراج ما لا تريد رؤيته في الصورة التي تم إنشاؤها
الأنماط، وهي طريقة لحفظ جزء من المطالبة وتطبيقها بسهولة عبر القائمة المنسدلة لاحقًا
الاختلافات، طريقة لتوليد نفس الصورة ولكن مع اختلافات بسيطة
تغيير حجم البذور، وهي طريقة لإنشاء نفس الصورة ولكن بدقة مختلفة قليلاً
مستجوب CLIP، وهو الزر الذي يحاول تخمين المطالبة من الصورة
التحرير الفوري، وهي طريقة لتغيير الجيل المتوسط الفوري، مثل البدء في صنع البطيخ والتحول إلى فتاة الأنمي في منتصف الطريق
معالجة الدفعات، معالجة مجموعة من الملفات باستخدام img2img
بديل Img2img، طريقة أويلر العكسية للتحكم في الانتباه المتقاطع
Highres Fix، وهو خيار مناسب لإنتاج صور عالية الدقة بنقرة واحدة دون أي تشوهات معتادة
إعادة تحميل نقاط التفتيش على الطاير
Checkpoint Merger، علامة تبويب تسمح لك بدمج ما يصل إلى 3 نقاط تفتيش في نقطة واحدة
البرامج النصية المخصصة مع العديد من الملحقات من المجتمع
Composable-Diffusion، وهي طريقة لاستخدام مطالبات متعددة في وقت واحد
مطالبات منفصلة باستخدام الأحرف الكبيرة AND
يدعم أيضًا أوزان المطالبات: a cat :1.2 AND a dog AND a penguin :2.2
لا يوجد حد للرموز المميزة للمطالبات (يتيح لك النشر المستقر الأصلي استخدام ما يصل إلى 75 رمزًا مميزًا)
تكامل DeepDanbooru، ينشئ علامات نمط danbooru لمطالبات الرسوم المتحركة
xformers، زيادة كبيرة في السرعة لبطاقات محددة: (أضف --xformers
إلى وسيطات سطر الأوامر)
عبر الامتداد: علامة تبويب المحفوظات: عرض الصور وتوجيهها وحذفها بسهولة داخل واجهة المستخدم
إنشاء خيار إلى الأبد
علامة تبويب التدريب
خيارات الشبكات التشعبية والتضمينات
المعالجة المسبقة للصور: الاقتصاص، والنسخ المتطابق، ووضع العلامات التلقائية باستخدام BLIP أو Deepdanbooru (للرسوم المتحركة)
تخطي المقطع
الشبكات الفائقة
Loras (مثل Hypernetworks ولكن أكثر جمالا)
واجهة مستخدم منفصلة حيث يمكنك، مع المعاينة، اختيار التضمينات أو الشبكات التشعبية أو Loras التي تريد إضافتها إلى الموجه الخاص بك
يمكن تحديد تحميل VAE مختلف من شاشة الإعدادات
وقت الانتهاء المقدر في شريط التقدم
واجهة برمجة التطبيقات
دعم نموذج الرسم المخصص بواسطة RunwayML
عبر الامتداد: التدرجات الجمالية، وهي طريقة لإنشاء صور ذات جمالية محددة باستخدام تضمينات الصور المقطعية (تنفيذ https://github.com/vicgalle/stable-diffusion-aesthetic-gradients)
دعم Stable Diffusion 2.0 - راجع wiki للحصول على التعليمات
دعم Alt-Diffusion - راجع الويكي للحصول على التعليمات
الآن دون أي رسائل سيئة!
قم بتحميل نقاط التفتيش بتنسيق أدوات الأمان
قيود الدقة الميسرة: يجب أن تكون أبعاد الصورة التي تم إنشاؤها من مضاعفات 8 بدلاً من 64
الآن مع الترخيص!
إعادة ترتيب العناصر في واجهة المستخدم من شاشة الإعدادات
دعم النشر المستقر Segmind
تأكد من استيفاء التبعيات المطلوبة واتبع الإرشادات المتاحة من أجل:
نفيديا (مستحسن)
وحدات معالجة الرسوميات AMD.
وحدات المعالجة المركزية Intel ووحدات معالجة الرسوميات Intel (المتكاملة والمنفصلة) (صفحة wiki خارجية)
وحدات NPU التصاعدية (صفحة ويكي خارجية)
وبدلاً من ذلك، استخدم الخدمات عبر الإنترنت (مثل Google Colab):
قائمة الخدمات عبر الإنترنت
قم بتنزيل sd.webui.zip
من الإصدار v1.0.0-pre واستخرج محتوياته.
قم بتشغيل update.bat
.
قم بتشغيل run.bat
.
لمزيد من التفاصيل، راجع التثبيت والتشغيل على وحدات معالجة الرسومات NVidia
قم بتثبيت Python 3.10.6 (الإصدار الأحدث من Python لا يدعم الشعلة)، مع تحديد "Add Python to PATH".
قم بتثبيت البوابة.
قم بتنزيل مستودع Stable-diffusion-webui، على سبيل المثال عن طريق تشغيل git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
.
قم بتشغيل webui-user.bat
من مستكشف Windows كمستخدم عادي، غير مسؤول.
تثبيت التبعيات:
# مستند إلى Debian: sudo apt install wget git python3 python3-venv libgl1 libglib2.0-0# مستند إلى Red Hat: sudo dnf install wget git python3 gperftools-libs libglvnd-glx# مستند إلى openSUSE: sudo zypper install wget git python3 libtcmalloc4 libglvnd# Arch-based:sudo pacman -S wget git python3
إذا كان نظامك جديدًا جدًا، فستحتاج إلى تثبيت python3.11 أو python3.10:
# أوبونتو 24.04sudo add-apt-repository ppa:deadsnakes/ppa سودو التحديث المناسب Sudo apt install python3.11# Manjaro/Archsudo pacman -S yay yay -S python311 # لا تخلط مع python3.11 package# فقط لـ 3.11# ثم قم بإعداد متغير env في إطلاق scriptexport python_cmd="python3.11"# أو في webui-user.shpython_cmd="python3.11"
انتقل إلى الدليل الذي تريد تثبيت webui فيه وقم بتنفيذ الأمر التالي:
wget -q https://raw.githubusercontent.com/AUTOMATIC1111/stable-diffusion-webui/master/webui.sh
أو فقط قم باستنساخ الريبو أينما تريد:
استنساخ بوابة https://github.com/AUTOMATIC1111/stable-diffusion-webui
قم بتشغيل webui.sh
.
تحقق من webui-user.sh
للحصول على الخيارات.
ابحث عن التعليمات هنا.
إليك كيفية إضافة رمز إلى هذا الريبو: المساهمة
تم نقل الوثائق من ملف README هذا إلى موقع wiki الخاص بالمشروع.
ولأغراض جعل Google ومحركات البحث الأخرى تزحف إلى موقع wiki، إليك رابط إلى موقع wiki (غير المخصص للبشر) الذي يمكن الزحف إليه.
يمكن العثور على تراخيص التعليمات البرمجية المستعارة في Settings -> Licenses
، وكذلك في ملف html/licenses.html
.
الانتشار المستقر - https://github.com/Stability-AI/stablediffusion، https://github.com/CompVis/taming-transformers، https://github.com/mcmonkey4eva/sd3-ref
نشر k - https://github.com/crowsonkb/k-diffusion.git
سباندريل - https://github.com/chaiNNer-org/spandrel تنفيذ
جفبجان - https://github.com/TencentARC/GFPGAN.git
كود فورمر - https://github.com/sczhou/CodeFormer
إسرجان - https://github.com/xinntao/ESRGAN
سوينير - https://github.com/JingyunLiang/SwinIR
Swin2SR - https://github.com/mv-lab/swin2sr
LDSR - https://github.com/Hafiidz/latent-diffusion
ميداس - https://github.com/isl-org/MiDaS
أفكار للتحسينات - https://github.com/basujindal/stable-diffusion
تحسين طبقة الانتباه المتقاطع - Doggettx - https://github.com/Doggettx/stable-diffusion، الفكرة الأصلية للتحرير الفوري.
تحسين طبقة الانتباه المتقاطع - InvocAI, lstein - https://github.com/invoc-ai/InvocAI (في الأصل http://github.com/lstein/stable-diffusion)
تحسين طبقة الانتباه المتقاطع شبه التربيعي - Alex Birch (Birch-san/diffusers#1)، أمين رضائي (https://github.com/AminRezaei0x443/memory-efficiency-attention)
الانعكاس النصي - رينون غال - https://github.com/rinongal/textual_inversion (نحن لا نستخدم الكود الخاص به، ولكننا نستخدم أفكاره).
فكرة لـ SD الراقي - https://github.com/jquesnelle/txt2imghd
توليد الضوضاء للطلاء الخارجي mk2 - https://github.com/parlance-zz/g-diffuser-bot
فكرة المحقق CLIP واستعارة بعض الأكواد - https://github.com/pharmapsychotic/clip-interrogator
فكرة للانتشار القابل للتركيب - https://github.com/energy-based-model/Compositional-Visual-Generation-with-Composable-Diffusion-Models-PyTorch
إكسفورمرز - https://github.com/facebookresearch/xformers
DeepDanbooru - مستجوب لناشري الأنمي https://github.com/KichangKim/DeepDanbooru
أخذ العينات بدقة float32 من float16 UNet - مارونين للفكرة، بيرش-سان على سبيل المثال تنفيذ الناشرين (https://github.com/Birch-san/diffusers-play/tree/92feee6)
إرشاد pix2pix - تيم بروكس (نجم)، ألكسندر هولنسكي (نجم)، أليكسي أ. إفروس (بدون نجم) - https://github.com/timothybrooks/instruct-pix2pix
نصيحة أمنية - RyotaK
أخذ عينات UniPC - Wenliang Zhao - https://github.com/wl-zhao/UniPC
TAESD - أولين بوير بوهان - https://github.com/madebyollin/taesd
ليكوريس - كوهاكو بلوليف
إعادة تشغيل أخذ العينات - lambertae - https://github.com/Newbeeer/diffusion_restart_sampling
فرط الحركة - تفيرند - https://github.com/tfernd/HyperTile
نص Gradio الأولي - تم نشره على 4chan بواسطة مستخدم مجهول. شكرا لك مستخدم مجهول.
(أنت)