الإنجليزية | 中文
2024.09.01 تم إصدار Kolors-Virtual-Try-On، وهو عرض تجريبي افتراضي يعتمد على Kolors! استمتع بتجربة Kolors-Virtual-Try-On ومنشور WeChat.
2024.08.06 تم إصدار Pose ControlNet! يرجى التحقق من ControlNet (Pose) لمزيد من التفاصيل.
2024.08.01 تم إصدار كود التدريب والاستدلال Kolors-Dreambooth-LoRA! يرجى مراجعة Dreambooth-LoRA لمزيد من التفاصيل.
2024.07.31 تم إصدار كود الأوزان والاستدلال Kolors-IP-Adapter-FaceID-Plus! يرجى التحقق من IP-Adapter-FaceID-Plus لمزيد من التفاصيل.
2024.07.26 تم إصدار ControlNet وInpainting Model! يرجى التحقق من ControlNet (Canny، Depth) ونموذج Inpainting لمزيد من التفاصيل.
2024.07.17 تم إصدار كود الأوزان والاستدلال Kolors-IP-Adapter-Plus! يرجى التحقق من IP-Adapter-Plus لمزيد من التفاصيل.
2024.07.12 ؟ كولورز متوفر الآن في الناشرون ! يرجى التحقق من موزعات الألوان أو المثال أدناه للحصول على التفاصيل! شكرًا لفريق Diffusers على دعمهم الفني.
2024.07.10 ؟ كولورز يدعم ModelScope.
2024.07.09 ؟ كولورز يدعم ComfyUI. بفضل @kijai على عمله الرائع.
2024.07.06 أطلقنا Kolors ، وهو نموذج كبير لتحويل النص إلى صورة تم تدريبه على مليارات أزواج الصور النصية. هذا النموذج ثنائي اللغة باللغتين الصينية والإنجليزية، ويدعم طول سياق يبلغ 256 رمزًا. لمزيد من التفاصيل الفنية، يرجى الرجوع إلى التقرير الفني.
2024.07.03 ؟ فازت Kolors بالمركز الثاني في لوحة FlagEval Multimodal لتحويل النص إلى صورة، متفوقة بشكل خاص في تقييم الجودة الذاتية باللغتين الصينية والإنجليزية حيث حصلت Kolors على المركز الأول.
2024.07.02 ؟ تهانينا! تم قبول بحثنا حول إنشاء فيديو يمكن التحكم فيه، DragAnything: التحكم في الحركة لأي شيء باستخدام تمثيل الكيان، من قبل ECCV 2024.
2024.02.08 ؟ تهانينا! لقد تم قبول ورقتنا حول تقييم النموذج التوليدي، تعلم التفضيل البشري متعدد الأبعاد لإنشاء النص إلى صورة، من قبل CVPR 2024.
Kolors هو نموذج واسع النطاق لتحويل النص إلى صورة يعتمد على الانتشار الكامن، تم تطويره بواسطة فريق Kuaishou Kolors. تم تدريب Kolors على مليارات من أزواج الصور النصية، وهو يعرض مزايا كبيرة مقارنة بالنماذج مفتوحة المصدر ومغلقة المصدر من حيث الجودة المرئية، والدقة الدلالية المعقدة، وعرض النص لكل من الأحرف الصينية والإنجليزية. علاوة على ذلك، يدعم Kolors المدخلات الصينية والإنجليزية، مما يدل على أداء قوي في فهم وإنشاء محتوى خاص باللغة الصينية. لمزيد من التفاصيل، يرجى الرجوع إلى هذا التقرير الفني.
لقد قمنا بجمع مجموعة بيانات شاملة لتقييم تحويل النص إلى صورة تسمى KolorsPrompts لمقارنة Kolors مع النماذج المفتوحة الحديثة الأخرى والنماذج مغلقة المصدر. يتضمن KolorsPrompts أكثر من 1000 مطالبة عبر 14 فئة و12 بُعدًا للتقييم. تتضمن عملية التقييم التقييمات البشرية والآلية. وفي التقييمات المعيارية ذات الصلة، أظهرت Kolors أداءً تنافسيًا للغاية، وحققت المعايير الرائدة في الصناعة.
بالنسبة للتقييم البشري، قمنا بدعوة 50 خبيرًا في التصوير لإجراء تقييمات مقارنة للنتائج الناتجة عن نماذج مختلفة. قام الخبراء بتقييم الصور التي تم إنشاؤها بناءً على ثلاثة معايير: الجاذبية البصرية، وإخلاص النص، والرضا العام. في التقييم، حققت Kolors أعلى درجة رضا عامة وتصدرت بشكل ملحوظ في الجاذبية البصرية مقارنة بالنماذج الأخرى.
نموذج | متوسط الرضا العام | متوسط الجاذبية البصرية | متوسط دقة النص |
---|---|---|---|
أدوبي اليراع | 3.03 | 3.46 | 3.84 |
انتشار مستقر 3 | 3.26 | 3.50 | 4.20 |
دال-E 3 | 3.32 | 3.54 | 4.22 |
منتصف الرحلة-v5 | 3.32 | 3.68 | 4.02 |
ملعب-v2.5 | 3.37 | 3.73 | 4.04 |
منتصف الرحلة-v6 | 3.58 | 3.92 | 4.18 |
كولورز | 3.59 | 3.99 | 4.17 |
يتم اختبار جميع نتائج النموذج باستخدام إصدارات المنتج لشهر أبريل 2024
استخدمنا MPS (درجة التفضيل البشري متعدد الأبعاد) على KolorsPrompts كمقياس تقييم لتقييم الآلة. حققت Kolors أعلى درجة MPS، وهو ما يتوافق مع نتائج التقييمات البشرية.
نماذج | MPS الشاملة |
---|---|
أدوبي اليراع | 8.5 |
انتشار مستقر 3 | 8.9 |
دال-E 3 | 9.0 |
منتصف الرحلة-v5 | 9.4 |
ملعب-v2.5 | 9.8 |
منتصف الرحلة-v6 | 10.2 |
كولورز | 10.3 |
لمزيد من النتائج والتفاصيل التجريبية، يرجى الرجوع إلى تقريرنا الفني.
يمكن الوصول إلى مطالبات الحالة المرئية المذكورة أعلاه هنا.
apt-get install git-lfs
git clone https://github.com/Kwai-Kolors/Kolors
cd Kolors
conda create --name kolors python=3.8
conda activate kolors
pip install -r requirements.txt
python3 setup.py install
huggingface-cli download --resume-download Kwai-Kolors/Kolors --local-dir weights/Kolors
أو
git lfs clone https://huggingface.co/Kwai-Kolors/Kolors weights/Kolors
python3 scripts/sample.py "一张瓢虫的照片,微距,变焦,高质量,电影,拿着一个牌子,写着“可图” "
# The image will be saved to "scripts/outputs/sample_text.jpg"
python3 scripts/sampleui.py
تأكد من الترقية إلى الإصدار الأحدث (0.30.0.dev0) من الناشرين:
git clone https://github.com/huggingface/diffusers
cd diffusers
python3 setup.py install
ملحوظات:
EulerDiscreteScheduler
بشكل افتراضي. نوصي باستخدام أداة الجدولة هذه ذات guidance scale=5.0
و num_inference_steps=50
.EDMDPMSolverMultistepScheduler
. يعد guidance scale=5.0
و num_inference_steps=25
مقياسًا افتراضيًا جيدًا لهذا المجدول.KolorsImg2ImgPipeline
أيضًا ميزة تحويل الصورة إلى صورة.وبعد ذلك يمكنك تشغيل:
import torch
from diffusers import KolorsPipeline
pipe = KolorsPipeline . from_pretrained (
"Kwai-Kolors/Kolors-diffusers" ,
torch_dtype = torch . float16 ,
variant = "fp16"
). to ( "cuda" )
prompt = '一张瓢虫的照片,微距,变焦,高质量,电影,拿着一个牌子,写着"可图"'
image = pipe (
prompt = prompt ,
negative_prompt = "" ,
guidance_scale = 5.0 ,
num_inference_steps = 50 ,
generator = torch . Generator ( pipe . device ). manual_seed ( 66 ),
). images [ 0 ]
image . show ()
نحن نقدم أوزان IP-Adapter-Plus ورمز الاستدلال المفصل في ipadapter.
# Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-IP-Adapter-Plus --local-dir weights/Kolors-IP-Adapter-Plus
# Inference:
python3 ipadapter/sample_ipadapter_plus.py ./ipadapter/asset/test_ip.jpg "穿着黑色T恤衫,上面中文绿色大字写着“可图” "
python3 ipadapter/sample_ipadapter_plus.py ./ipadapter/asset/test_ip2.png "一只可爱的小狗在奔跑"
# The image will be saved to "scripts/outputs/"
نحن نقدم ثلاثة أوزان لشبكة التحكم ورمز الاستدلال، مفصلة في شبكة التحكم.
# Weights download
# Canny - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Canny --local-dir weights/Kolors-ControlNet-Canny
# Depth - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Depth --local-dir weights/Kolors-ControlNet-Depth
# Pose - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Pose --local-dir weights/Kolors-ControlNet-Pose
إذا كنت تنوي الاستفادة من شبكة تقدير العمق، فيرجى التأكد من تنزيل أوزان النماذج المقابلة لها.
huggingface-cli download lllyasviel/Annotators ./dpt_hybrid-midas-501f0c75.pt --local-dir ./controlnet/annotator/ckpts
بفضل DWPose، يمكنك الاستفادة من شبكة تقدير الوضعية. يرجى تنزيل نموذج Pose dw-ll_ucoco_384.onnx (baidu، google) ونموذج Det yolox_l.onnx (baidu، google). ثم يرجى وضعها في controlnet/annotator/ckpts/
.
# Inference:
python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_1.png 一个漂亮的女孩,高品质,超清晰,色彩鲜艳,超高分辨率,最佳品质,8k,高清,4K Canny
python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_2.png 新海诚风格,丰富的色彩,穿着绿色衬衫的女人站在田野里,唯美风景,清新明亮,斑驳的光影,最好的质量,超细节,8K画质 Depth
python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_3.png 一位穿着紫色泡泡袖连衣裙、戴着皇冠和白色蕾丝手套的女孩双手托脸,高品质,超清晰,色彩鲜艳,超高分辨率,最佳品质,8k,高清,4K Pose
# The image will be saved to "controlnet/outputs/"
نحن نقدم أوزان Inpainting ورمز الاستدلال، المفصل في inpainting.
# Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-Inpainting --local-dir weights/Kolors-Inpainting
# Inference:
python3 inpainting/sample_inpainting.py ./inpainting/asset/3.png ./inpainting/asset/3_mask.png 穿着美少女战士的衣服,一件类似于水手服风格的衣服,包括一个白色紧身上衣,前胸搭配一个大大的红色蝴蝶结。衣服的领子部分呈蓝色,并且有白色条纹。她还穿着一条蓝色百褶裙,超高清,辛烷渲染,高级质感,32k,高分辨率,最好的质量,超级细节,景深
python3 inpainting/sample_inpainting.py ./inpainting/asset/4.png ./inpainting/asset/4_mask.png 穿着钢铁侠的衣服,高科技盔甲,主要颜色为红色和金色,并且有一些银色装饰。胸前有一个亮起的圆形反应堆装置,充满了未来科技感。超清晰,高质量,超逼真,高分辨率,最好的质量,超级细节,景深
# The image will be saved to "scripts/outputs/"
نحن نقدم أوزان IP-Adapter-FaceID-Plus ورمز الاستدلال المفصل في ipadapter_FaceID.
# Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-IP-Adapter-FaceID-Plus --local-dir weights/Kolors-IP-Adapter-FaceID-Plus
# Inference:
python ipadapter_FaceID/sample_ipadapter_faceid_plus.py ./ipadapter_FaceID/assets/image1.png "穿着晚礼服,在星光下的晚宴场景中,烛光闪闪,整个场景洋溢着浪漫而奢华的氛围"
python ipadapter_FaceID/sample_ipadapter_faceid_plus.py ./ipadapter_FaceID/assets/image2.png "西部牛仔,牛仔帽,荒野大镖客,背景是西部小镇,仙人掌,,日落余晖, 暖色调, 使用XT4胶片拍摄, 噪点, 晕影, 柯达胶卷,复古"
# The image will be saved to "scripts/outputs/"
نحن نقدم التدريب على LoRA ورمز الاستدلال، المفصل في Dreambooth-LoRA.
# Training:
sh train.sh
# Inference:
python infer_dreambooth.py " ktxl狗在草地上跑"
أوزان كولورز مفتوحة بالكامل للبحث الأكاديمي. إذا كنت تنوي استخدام نموذج Kolors أو مشتقاته لأغراض تجارية بموجب شروط وأحكام الترخيص، فيرجى إرسال الاستبيان إلى [email protected] للتسجيل لدى جهة الترخيص. إذا كان عدد المستخدمين النشطين شهريًا لجميع المنتجات أو الخدمات المتاحة بواسطة المرخص له أو لصالحه لا يتجاوز 300 مليون مستخدم نشط شهريًا في الشهر التقويمي السابق، فسيتم اعتبار تسجيلك لدى المرخص بمثابة حصولك على الترخيص التجاري المقابل؛ إذا كان عدد المستخدمين النشطين شهريًا لجميع المنتجات أو الخدمات المتاحة بواسطة المرخص له أو لصالحه أكبر من 300 مليون مستخدم نشط شهريًا في الشهر التقويمي السابق، فيجب عليك طلب ترخيص من المرخص، والذي قد يمنحه لك المرخص وفقًا لتقديره الخاص ، ولا يحق لك ممارسة أي من الحقوق بموجب هذه الاتفاقية ما لم أو حتى نمنحك هذه الحقوق صراحةً.
نحن نفتح مصدر Kolors لتعزيز تطوير نماذج كبيرة لتحويل النص إلى صورة بالتعاون مع مجتمع المصادر المفتوحة. رمز هذا المشروع مفتوح المصدر بموجب ترخيص Apache-2.0. نحن نحث بشدة جميع المطورين والمستخدمين على الالتزام الصارم بترخيص المصادر المفتوحة، وتجنب استخدام نموذج المصدر المفتوح والكود ومشتقاته لأي أغراض قد تضر البلد والمجتمع أو لأي خدمات لم يتم تقييمها وتسجيلها. للسلامة. لاحظ أنه على الرغم من بذل قصارى جهدنا لضمان امتثال البيانات ودقتها وسلامتها أثناء التدريب، نظرًا لتنوع المحتوى الذي تم إنشاؤه وقابليته للدمج والعشوائية الاحتمالية التي تؤثر على النموذج، لا يمكننا ضمان دقة وسلامة محتوى الإخراج، والنموذج عرضة للتضليل. لا يتحمل هذا المشروع أي مسؤولية قانونية عن أي مشكلات تتعلق بأمن البيانات أو مخاطر الرأي العام أو المخاطر والمسؤوليات الناشئة عن تضليل النموذج أو إساءة استخدامه أو استخدامه بشكل غير صحيح بسبب استخدام النموذج والكود مفتوح المصدر.
إذا وجدت أن عملنا مفيد، يرجى ذكره!
@article{kolors,
title={Kolors: Effective Training of Diffusion Model for Photorealistic Text-to-Image Synthesis},
author={Kolors Team},
journal={arXiv preprint},
year={2024}
}
إذا كنت تريد ترك رسالة لفريق البحث والتطوير وفريق المنتج لدينا، فلا تتردد في الانضمام إلى مجموعة WeChat الخاصة بنا. يمكنك أيضًا الاتصال بنا عبر البريد الإلكتروني ([email protected]).