อังกฤษ | 中文
2024.09.01 Kolors-Virtual-Try-On การสาธิตการทดลองใช้เสมือนจริงจาก Kolors เปิดตัวแล้ว! สนุกกับการลองใช้ Kolors-Virtual-Try-On, โพสต์ WeChat
2024.08.06 Pose ControlNet เปิดตัวแล้ว! โปรดตรวจสอบ ControlNet (Pose) เพื่อดูรายละเอียดเพิ่มเติม
2024.08.01 โค้ดการฝึกอบรมและการอนุมาน Kolors-Dreambooth-LoRA ได้รับการเผยแพร่แล้ว! โปรดตรวจสอบ Dreambooth-LoRA เพื่อดูรายละเอียดเพิ่มเติม
2024.07.31 เปิดตัวตุ้มน้ำหนักและโค้ดการอนุมาน Kolors-IP-Adapter-FaceID-Plus! โปรดตรวจสอบ IP-Adapter-FaceID-Plus เพื่อดูรายละเอียดเพิ่มเติม
2024.07.26 ControlNet และ Inpainting Model เปิดตัวแล้ว! โปรดตรวจสอบ ControlNet (Canny, Depth) และ Inpainting Model เพื่อดูรายละเอียดเพิ่มเติม
2024.07.17 เปิดตัว Kolors-IP-Adapter-Plus และโค้ดการอนุมานแล้ว! โปรดตรวจสอบ IP-Adapter-Plus เพื่อดูรายละเอียดเพิ่มเติม
2024.07.12 ? Kolors มีวางจำหน่ายแล้วใน Diffusers ! กรุณาตรวจสอบ kolors-diffusers หรือตัวอย่างด้านล่างเพื่อดูรายละเอียด! ขอขอบคุณทีมงาน Diffusers สำหรับการสนับสนุนทางเทคนิค
2024.07.10 ? Kolors รองรับ ModelScope
2024.07.09 ? Kolors รองรับ ComfyUI ขอบคุณ @kijai กับผลงานอันยอดเยี่ยมของเขา
2024.07.06 เราเปิด ตัว Kolors ซึ่งเป็นโมเดลข้อความเป็นรูปภาพขนาดใหญ่ที่ฝึกฝนกับคู่ข้อความและรูปภาพหลายพันล้านคู่ โมเดลนี้เป็นแบบสองภาษาทั้งภาษาจีนและอังกฤษ และรองรับความยาวบริบท 256 โทเค็น สำหรับรายละเอียดทางเทคนิคเพิ่มเติม โปรดดูรายงานทางเทคนิค
2024.07.03 ? Kolors คว้าอันดับที่สองในกระดานผู้นำการแปลงข้อความเป็นรูปภาพ FlagEval Multimodal โดยเฉพาะอย่างยิ่งในการประเมินคุณภาพเชิงอัตนัยภาษาจีนและอังกฤษ ซึ่ง Kolors เข้ามาเป็นที่หนึ่ง
2024.07.02 ? ยินดีด้วย! บทความของเราเกี่ยวกับการสร้างวิดีโอที่ควบคุมได้ DragAnything: Motion Control for Anything โดยใช้ Entity Representation ได้รับการยอมรับจาก ECCV 2024
2024.02.08 ? ยินดีด้วย! บทความของเราเกี่ยวกับการประเมินแบบจำลองเชิงกำเนิด การเรียนรู้การตั้งค่าของมนุษย์หลายมิติสำหรับการสร้างข้อความเป็นรูปภาพ ได้รับการยอมรับโดย CVPR 2024
Kolors คือโมเดลการสร้างข้อความเป็นภาพขนาดใหญ่โดยอาศัยการแพร่กระจายแฝง ซึ่งพัฒนาโดยทีมงาน Kuaishou Kolors ด้วยการฝึกคู่ข้อความและรูปภาพนับพันล้านคู่ Kolors แสดงให้เห็นถึงข้อได้เปรียบที่สำคัญเหนือทั้งโมเดลโอเพ่นซอร์สและโอเพ่นซอร์สในด้านคุณภาพของภาพ ความแม่นยำด้านความหมายที่ซับซ้อน และการแสดงข้อความสำหรับทั้งตัวอักษรจีนและอังกฤษ นอกจากนี้ Kolors ยังรองรับอินพุตทั้งภาษาจีนและภาษาอังกฤษ ซึ่งแสดงให้เห็นถึงประสิทธิภาพที่ยอดเยี่ยมในการทำความเข้าใจและสร้างเนื้อหาเฉพาะภาษาจีน สำหรับรายละเอียดเพิ่มเติม โปรดดูรายงานทางเทคนิคนี้
เราได้รวบรวมชุดข้อมูลการประเมินข้อความเป็นรูปภาพที่ครอบคลุมชื่อ KolorsPrompts เพื่อเปรียบเทียบ Kolors กับโมเดลเปิดและโมเดลโอเพ่นซอร์สที่ล้ำสมัยอื่นๆ KolorsPrompts มีพร้อมต์มากกว่า 1,000 รายการใน 14 หมวดหมู่และ 12 มิติการประเมิน กระบวนการประเมินมีทั้งการประเมินโดยมนุษย์และเครื่องจักร ในการประเมินเกณฑ์มาตรฐานที่เกี่ยวข้อง Kolors แสดงให้เห็นถึงประสิทธิภาพการแข่งขันสูง โดยบรรลุมาตรฐานชั้นนำของอุตสาหกรรม
สำหรับการประเมินโดยมนุษย์ เราได้เชิญผู้เชี่ยวชาญด้านภาพ 50 คนมาประเมินเปรียบเทียบผลลัพธ์ที่เกิดจากแบบจำลองต่างๆ ผู้เชี่ยวชาญให้คะแนนภาพที่สร้างขึ้นตามเกณฑ์สามประการ: ความดึงดูดสายตา ความซื่อสัตย์ของข้อความ และความพึงพอใจโดยรวม ในการประเมิน Kolors ได้รับคะแนนความพึงพอใจโดยรวมสูงสุดและเป็นผู้นำในด้านรูปลักษณ์ที่ดึงดูดใจอย่างมากเมื่อเทียบกับรุ่นอื่นๆ
แบบอย่าง | ความพึงพอใจโดยรวมโดยเฉลี่ย | อุทธรณ์ภาพโดยเฉลี่ย | ความซื่อสัตย์ของข้อความโดยเฉลี่ย |
---|---|---|---|
Adobe-หิ่งห้อย | 3.03 | 3.46 | 3.84 |
การแพร่กระจายที่เสถียร 3 | 3.26 | 3.50 | 4.20 |
ดัล-อี 3 | 3.32 | 3.54 | 4.22 |
กลางการเดินทาง-V5 | 3.32 | 3.68 | 4.02 |
สนามเด็กเล่น-v2.5 | 3.37 | 3.73 | 4.04 |
กลางการเดินทาง-V6 | 3.58 | 3.92 | 4.18 |
สี | 3.59 | 3.99 | 4.17 |
ผลลัพธ์ของโมเดลทั้งหมดได้รับการทดสอบกับเวอร์ชันผลิตภัณฑ์เดือนเมษายน 2024
เราใช้ MPS (คะแนนความชอบของมนุษย์แบบหลายมิติ) บน KolorsPrompts เป็นตัวชี้วัดการประเมินสำหรับการประเมินเครื่องจักร Kolors ได้รับคะแนน MPS สูงสุด ซึ่งสอดคล้องกับผลการประเมินโดยมนุษย์
โมเดล | ส.ส.โดยรวม |
---|---|
Adobe-หิ่งห้อย | 8.5 |
การแพร่กระจายที่เสถียร 3 | 8.9 |
ดัล-อี 3 | 9.0 |
กลางการเดินทาง-V5 | 9.4 |
สนามเด็กเล่น-v2.5 | 9.8 |
กลางการเดินทาง-V6 | 10.2 |
สี | 10.3 |
สำหรับผลการทดลองและรายละเอียดเพิ่มเติม โปรดดูรายงานทางเทคนิคของเรา
คุณสามารถเข้าถึงพร้อมท์กรณีที่เป็นภาพตามที่กล่าวไว้ข้างต้นได้ที่นี่
apt-get install git-lfs
git clone https://github.com/Kwai-Kolors/Kolors
cd Kolors
conda create --name kolors python=3.8
conda activate kolors
pip install -r requirements.txt
python3 setup.py install
huggingface-cli download --resume-download Kwai-Kolors/Kolors --local-dir weights/Kolors
หรือ
git lfs clone https://huggingface.co/Kwai-Kolors/Kolors weights/Kolors
python3 scripts/sample.py "一张瓢虫的照片,微距,变焦,高质量,电影,拿着一个牌子,写着“可图” "
# The image will be saved to "scripts/outputs/sample_text.jpg"
python3 scripts/sampleui.py
ตรวจสอบให้แน่ใจว่าคุณอัปเกรดเป็นเวอร์ชันล่าสุด (0.30.0.dev0) ของดิฟฟิวเซอร์:
git clone https://github.com/huggingface/diffusers
cd diffusers
python3 setup.py install
หมายเหตุ:
EulerDiscreteScheduler
เป็นค่าเริ่มต้น เราขอแนะนำให้ใช้ตัวกำหนดเวลานี้โดยมี guidance scale=5.0
และ num_inference_steps=50
EDMDPMSolverMultistepScheduler
guidance scale=5.0
และ num_inference_steps=25
เป็นค่าเริ่มต้นที่ดีสำหรับตัวกำหนดเวลานี้KolorsImg2ImgPipeline
ยังรองรับ Image-to-Image อีกด้วยจากนั้นคุณสามารถวิ่งได้:
import torch
from diffusers import KolorsPipeline
pipe = KolorsPipeline . from_pretrained (
"Kwai-Kolors/Kolors-diffusers" ,
torch_dtype = torch . float16 ,
variant = "fp16"
). to ( "cuda" )
prompt = '一张瓢虫的照片,微距,变焦,高质量,电影,拿着一个牌子,写着"可图"'
image = pipe (
prompt = prompt ,
negative_prompt = "" ,
guidance_scale = 5.0 ,
num_inference_steps = 50 ,
generator = torch . Generator ( pipe . device ). manual_seed ( 66 ),
). images [ 0 ]
image . show ()
เราจัดเตรียมน้ำหนัก IP-Adapter-Plus และโค้ดการอนุมาน ซึ่งมีรายละเอียดอยู่ใน ipadapter
# Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-IP-Adapter-Plus --local-dir weights/Kolors-IP-Adapter-Plus
# Inference:
python3 ipadapter/sample_ipadapter_plus.py ./ipadapter/asset/test_ip.jpg "穿着黑色T恤衫,上面中文绿色大字写着“可图” "
python3 ipadapter/sample_ipadapter_plus.py ./ipadapter/asset/test_ip2.png "一只可爱的小狗在奔跑"
# The image will be saved to "scripts/outputs/"
เรามีน้ำหนัก ControlNet และรหัสการอนุมานสามรายการ ซึ่งมีรายละเอียดอยู่ใน controlnet
# Weights download
# Canny - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Canny --local-dir weights/Kolors-ControlNet-Canny
# Depth - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Depth --local-dir weights/Kolors-ControlNet-Depth
# Pose - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Pose --local-dir weights/Kolors-ControlNet-Pose
หากคุณตั้งใจจะใช้เครือข่ายการประมาณความลึก โปรดตรวจสอบให้แน่ใจว่าได้ดาวน์โหลดน้ำหนักแบบจำลองที่เกี่ยวข้องแล้ว
huggingface-cli download lllyasviel/Annotators ./dpt_hybrid-midas-501f0c75.pt --local-dir ./controlnet/annotator/ckpts
ขอบคุณ DWPose ที่คุณสามารถใช้เครือข่ายการประมาณท่าทางได้ กรุณาดาวน์โหลด Pose รุ่น dw-ll_ucoco_384.onnx (baidu, google) และ Det รุ่น yolox_l.onnx (baidu, google) จากนั้นกรุณาใส่ไว้ใน controlnet/annotator/ckpts/
# Inference:
python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_1.png 一个漂亮的女孩,高品质,超清晰,色彩鲜艳,超高分辨率,最佳品质,8k,高清,4K Canny
python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_2.png 新海诚风格,丰富的色彩,穿着绿色衬衫的女人站在田野里,唯美风景,清新明亮,斑驳的光影,最好的质量,超细节,8K画质 Depth
python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_3.png 一位穿着紫色泡泡袖连衣裙、戴着皇冠和白色蕾丝手套的女孩双手托脸,高品质,超清晰,色彩鲜艳,超高分辨率,最佳品质,8k,高清,4K Pose
# The image will be saved to "controlnet/outputs/"
เราจัดเตรียมน้ำหนักของ Inpainting และรหัสการอนุมาน โดยมีรายละเอียดอยู่ใน Inpainting
# Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-Inpainting --local-dir weights/Kolors-Inpainting
# Inference:
python3 inpainting/sample_inpainting.py ./inpainting/asset/3.png ./inpainting/asset/3_mask.png 穿着美少女战士的衣服,一件类似于水手服风格的衣服,包括一个白色紧身上衣,前胸搭配一个大大的红色蝴蝶结。衣服的领子部分呈蓝色,并且有白色条纹。她还穿着一条蓝色百褶裙,超高清,辛烷渲染,高级质感,32k,高分辨率,最好的质量,超级细节,景深
python3 inpainting/sample_inpainting.py ./inpainting/asset/4.png ./inpainting/asset/4_mask.png 穿着钢铁侠的衣服,高科技盔甲,主要颜色为红色和金色,并且有一些银色装饰。胸前有一个亮起的圆形反应堆装置,充满了未来科技感。超清晰,高质量,超逼真,高分辨率,最好的质量,超级细节,景深
# The image will be saved to "scripts/outputs/"
เราจัดเตรียมน้ำหนัก IP-Adapter-FaceID-Plus และโค้ดการอนุมาน ซึ่งมีรายละเอียดอยู่ใน ipadapter_FaceID
# Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-IP-Adapter-FaceID-Plus --local-dir weights/Kolors-IP-Adapter-FaceID-Plus
# Inference:
python ipadapter_FaceID/sample_ipadapter_faceid_plus.py ./ipadapter_FaceID/assets/image1.png "穿着晚礼服,在星光下的晚宴场景中,烛光闪闪,整个场景洋溢着浪漫而奢华的氛围"
python ipadapter_FaceID/sample_ipadapter_faceid_plus.py ./ipadapter_FaceID/assets/image2.png "西部牛仔,牛仔帽,荒野大镖客,背景是西部小镇,仙人掌,,日落余晖, 暖色调, 使用XT4胶片拍摄, 噪点, 晕影, 柯达胶卷,复古"
# The image will be saved to "scripts/outputs/"
เราจัดเตรียมโค้ดการฝึกอบรมและการอนุมานของ LoRA โดยมีรายละเอียดอยู่ใน Dreambooth-LoRA
# Training:
sh train.sh
# Inference:
python infer_dreambooth.py " ktxl狗在草地上跑"
ตุ้มน้ำหนัก Kolors เปิดกว้างสำหรับการวิจัยเชิงวิชาการอย่างเต็มที่ หากคุณต้องการใช้แบบจำลอง Kolors หรืออนุพันธ์ของแบบจำลองเพื่อวัตถุประสงค์ทางการค้าภายใต้ข้อกำหนดและเงื่อนไขการอนุญาต โปรดส่งแบบสอบถามไปที่ [email protected] เพื่อลงทะเบียนกับผู้อนุญาต หากผู้ใช้ที่ใช้งานรายเดือนของผลิตภัณฑ์หรือบริการทั้งหมดที่จัดทำโดยหรือสำหรับผู้รับอนุญาตมีผู้ใช้ที่ใช้งานรายเดือนไม่เกิน 300 ล้านรายในเดือนปฏิทินก่อนหน้า การลงทะเบียนของคุณกับผู้อนุญาตจะถือว่าได้รับใบอนุญาตประกอบธุรกิจที่เกี่ยวข้อง หากผู้ใช้ที่ใช้งานรายเดือนของผลิตภัณฑ์หรือบริการทั้งหมดที่จัดทำโดยหรือสำหรับผู้รับใบอนุญาตมีมากกว่า 300 ล้านรายต่อเดือนในเดือนปฏิทินก่อนหน้า คุณต้องขอใบอนุญาตจากผู้ให้ใบอนุญาต ซึ่งผู้ให้ใบอนุญาตอาจมอบให้แก่คุณตามดุลยพินิจของตนแต่เพียงผู้เดียว และคุณไม่ได้รับอนุญาตให้ใช้สิทธิ์ใดๆ ภายใต้ข้อตกลงนี้ เว้นแต่หรือจนกว่าเราจะให้สิทธิ์ดังกล่าวแก่คุณอย่างชัดแจ้ง
เราโอเพ่นซอร์ส Kolors เพื่อส่งเสริมการพัฒนาโมเดลข้อความเป็นรูปภาพขนาดใหญ่โดยความร่วมมือกับชุมชนโอเพ่นซอร์ส รหัสของโครงการนี้เป็นโอเพ่นซอร์สภายใต้ลิขสิทธิ์ Apache-2.0 เราขอเรียกร้องให้นักพัฒนาและผู้ใช้ทุกคนปฏิบัติตามใบอนุญาตโอเพ่นซอร์สอย่างเคร่งครัด โดยหลีกเลี่ยงการใช้โมเดลโอเพ่นซอร์ส โค้ด และอนุพันธ์ของมันเพื่อวัตถุประสงค์ใดๆ ที่อาจเป็นอันตรายต่อประเทศและสังคม หรือสำหรับบริการใดๆ ที่ไม่ได้รับการประเมินและลงทะเบียน เพื่อความปลอดภัย โปรดทราบว่าแม้เราจะพยายามอย่างเต็มที่เพื่อให้มั่นใจถึงความสอดคล้อง ความถูกต้อง และความปลอดภัยของข้อมูลในระหว่างการฝึกอบรม เนื่องจากความหลากหลายและความสามารถในการรวมเนื้อหาที่สร้างขึ้นและความสุ่มที่น่าจะเป็นที่ส่งผลต่อแบบจำลอง เราไม่สามารถรับประกันความถูกต้องและความปลอดภัยของเนื้อหาเอาต์พุตได้ และโมเดลนั้นเสี่ยงต่อการทำให้เข้าใจผิด โครงการนี้ไม่รับผิดชอบต่อปัญหาด้านความปลอดภัยของข้อมูล ความเสี่ยงต่อความคิดเห็นของสาธารณชน หรือความเสี่ยงและความรับผิดที่เกิดจากแบบจำลองที่ถูกเข้าใจผิด ใช้ในทางที่ผิด ใช้งานในทางที่ผิด หรือใช้อย่างไม่เหมาะสมอันเนื่องมาจากการใช้แบบจำลองและโค้ดโอเพ่นซอร์ส
หากคุณพบว่างานของเรามีประโยชน์ โปรดอ้างอิงด้วย!
@article{kolors,
title={Kolors: Effective Training of Diffusion Model for Photorealistic Text-to-Image Synthesis},
author={Kolors Team},
journal={arXiv preprint},
year={2024}
}
หากคุณต้องการฝากข้อความถึงทีม R&D และทีมผลิตภัณฑ์ของเรา โปรดเข้าร่วมกลุ่ม WeChat ของเรา คุณสามารถติดต่อเราทางอีเมล ([email protected])