ดาวน์โหลด Kolors - ดาวน์โหลดซอร์สโค้ด Kolors

อังกฤษ ｜中文

Kolors: การฝึกอบรมที่มีประสิทธิภาพของแบบจำลองการแพร่กระจายสำหรับการสังเคราะห์ข้อความเป็นภาพเสมือนจริง

สารบัญ

- ข่าว
- แผนโอเพ่นซอร์ส
- การแนะนำ
- การประเมิน ??
- การแสดงภาพ
️การใช้งาน
- ใบอนุญาต & การอ้างอิง & การรับทราบ

- ข่าว

2024.09.01 Kolors-Virtual-Try-On การสาธิตการทดลองใช้เสมือนจริงจาก Kolors เปิดตัวแล้ว! สนุกกับการลองใช้ Kolors-Virtual-Try-On, โพสต์ WeChat
2024.08.06 Pose ControlNet เปิดตัวแล้ว! โปรดตรวจสอบ ControlNet (Pose) เพื่อดูรายละเอียดเพิ่มเติม
2024.08.01 โค้ดการฝึกอบรมและการอนุมาน Kolors-Dreambooth-LoRA ได้รับการเผยแพร่แล้ว! โปรดตรวจสอบ Dreambooth-LoRA เพื่อดูรายละเอียดเพิ่มเติม
2024.07.31 เปิดตัวตุ้มน้ำหนักและโค้ดการอนุมาน Kolors-IP-Adapter-FaceID-Plus! โปรดตรวจสอบ IP-Adapter-FaceID-Plus เพื่อดูรายละเอียดเพิ่มเติม
2024.07.26 ControlNet และ Inpainting Model เปิดตัวแล้ว! โปรดตรวจสอบ ControlNet (Canny, Depth) และ Inpainting Model เพื่อดูรายละเอียดเพิ่มเติม
2024.07.17 เปิดตัว Kolors-IP-Adapter-Plus และโค้ดการอนุมานแล้ว! โปรดตรวจสอบ IP-Adapter-Plus เพื่อดูรายละเอียดเพิ่มเติม
2024.07.12 ? Kolors มีวางจำหน่ายแล้วใน Diffusers ! กรุณาตรวจสอบ kolors-diffusers หรือตัวอย่างด้านล่างเพื่อดูรายละเอียด! ขอขอบคุณทีมงาน Diffusers สำหรับการสนับสนุนทางเทคนิค
2024.07.10 ? Kolors รองรับ ModelScope
2024.07.09 ? Kolors รองรับ ComfyUI ขอบคุณ @kijai กับผลงานอันยอดเยี่ยมของเขา
2024.07.06 เราเปิด ตัว Kolors ซึ่งเป็นโมเดลข้อความเป็นรูปภาพขนาดใหญ่ที่ฝึกฝนกับคู่ข้อความและรูปภาพหลายพันล้านคู่ โมเดลนี้เป็นแบบสองภาษาทั้งภาษาจีนและอังกฤษ และรองรับความยาวบริบท 256 โทเค็น สำหรับรายละเอียดทางเทคนิคเพิ่มเติม โปรดดูรายงานทางเทคนิค
2024.07.03 ? Kolors คว้าอันดับที่สองในกระดานผู้นำการแปลงข้อความเป็นรูปภาพ FlagEval Multimodal โดยเฉพาะอย่างยิ่งในการประเมินคุณภาพเชิงอัตนัยภาษาจีนและอังกฤษ ซึ่ง Kolors เข้ามาเป็นที่หนึ่ง
2024.07.02 ? ยินดีด้วย! บทความของเราเกี่ยวกับการสร้างวิดีโอที่ควบคุมได้ DragAnything: Motion Control for Anything โดยใช้ Entity Representation ได้รับการยอมรับจาก ECCV 2024
2024.02.08 ? ยินดีด้วย! บทความของเราเกี่ยวกับการประเมินแบบจำลองเชิงกำเนิด การเรียนรู้การตั้งค่าของมนุษย์หลายมิติสำหรับการสร้างข้อความเป็นรูปภาพ ได้รับการยอมรับโดย CVPR 2024

- แผนโอเพ่นซอร์ส

- การแนะนำ

Kolors คือโมเดลการสร้างข้อความเป็นภาพขนาดใหญ่โดยอาศัยการแพร่กระจายแฝง ซึ่งพัฒนาโดยทีมงาน Kuaishou Kolors ด้วยการฝึกคู่ข้อความและรูปภาพนับพันล้านคู่ Kolors แสดงให้เห็นถึงข้อได้เปรียบที่สำคัญเหนือทั้งโมเดลโอเพ่นซอร์สและโอเพ่นซอร์สในด้านคุณภาพของภาพ ความแม่นยำด้านความหมายที่ซับซ้อน และการแสดงข้อความสำหรับทั้งตัวอักษรจีนและอังกฤษ นอกจากนี้ Kolors ยังรองรับอินพุตทั้งภาษาจีนและภาษาอังกฤษ ซึ่งแสดงให้เห็นถึงประสิทธิภาพที่ยอดเยี่ยมในการทำความเข้าใจและสร้างเนื้อหาเฉพาะภาษาจีน สำหรับรายละเอียดเพิ่มเติม โปรดดูรายงานทางเทคนิคนี้

- การประเมิน

เราได้รวบรวมชุดข้อมูลการประเมินข้อความเป็นรูปภาพที่ครอบคลุมชื่อ KolorsPrompts เพื่อเปรียบเทียบ Kolors กับโมเดลเปิดและโมเดลโอเพ่นซอร์สที่ล้ำสมัยอื่นๆ KolorsPrompts มีพร้อมต์มากกว่า 1,000 รายการใน 14 หมวดหมู่และ 12 มิติการประเมิน กระบวนการประเมินมีทั้งการประเมินโดยมนุษย์และเครื่องจักร ในการประเมินเกณฑ์มาตรฐานที่เกี่ยวข้อง Kolors แสดงให้เห็นถึงประสิทธิภาพการแข่งขันสูง โดยบรรลุมาตรฐานชั้นนำของอุตสาหกรรม

การประเมินมนุษย์

สำหรับการประเมินโดยมนุษย์ เราได้เชิญผู้เชี่ยวชาญด้านภาพ 50 คนมาประเมินเปรียบเทียบผลลัพธ์ที่เกิดจากแบบจำลองต่างๆ ผู้เชี่ยวชาญให้คะแนนภาพที่สร้างขึ้นตามเกณฑ์สามประการ: ความดึงดูดสายตา ความซื่อสัตย์ของข้อความ และความพึงพอใจโดยรวม ในการประเมิน Kolors ได้รับคะแนนความพึงพอใจโดยรวมสูงสุดและเป็นผู้นำในด้านรูปลักษณ์ที่ดึงดูดใจอย่างมากเมื่อเทียบกับรุ่นอื่นๆ

แบบอย่าง	ความพึงพอใจโดยรวมโดยเฉลี่ย	อุทธรณ์ภาพโดยเฉลี่ย	ความซื่อสัตย์ของข้อความโดยเฉลี่ย
Adobe-หิ่งห้อย	3.03	3.46	3.84
การแพร่กระจายที่เสถียร 3	3.26	3.50	4.20
ดัล-อี 3	3.32	3.54	4.22
กลางการเดินทาง-V5	3.32	3.68	4.02
สนามเด็กเล่น-v2.5	3.37	3.73	4.04
กลางการเดินทาง-V6	3.58	3.92	4.18
สี	3.59	3.99	4.17

ผลลัพธ์ของโมเดลทั้งหมดได้รับการทดสอบกับเวอร์ชันผลิตภัณฑ์เดือนเมษายน 2024

การประเมินเครื่องจักร

เราใช้ MPS (คะแนนความชอบของมนุษย์แบบหลายมิติ) บน KolorsPrompts เป็นตัวชี้วัดการประเมินสำหรับการประเมินเครื่องจักร Kolors ได้รับคะแนน MPS สูงสุด ซึ่งสอดคล้องกับผลการประเมินโดยมนุษย์

โมเดล	ส.ส.โดยรวม
Adobe-หิ่งห้อย	8.5
การแพร่กระจายที่เสถียร 3	8.9
ดัล-อี 3	9.0
กลางการเดินทาง-V5	9.4
สนามเด็กเล่น-v2.5	9.8
กลางการเดินทาง-V6	10.2
สี	10.3

สำหรับผลการทดลองและรายละเอียดเพิ่มเติม โปรดดูรายงานทางเทคนิคของเรา

- การแสดงภาพ

ภาพบุคคลคุณภาพสูง

การสร้างองค์ประกอบจีน

ความเข้าใจความหมายที่ซับซ้อน

การแสดงผลข้อความ

คุณสามารถเข้าถึงพร้อมท์กรณีที่เป็นภาพตามที่กล่าวไว้ข้างต้นได้ที่นี่

️การใช้งาน

ความต้องการ

Python 3.8 หรือใหม่กว่า
PyTorch 1.13.1 หรือใหม่กว่า
Transformers 4.26.1 หรือใหม่กว่า
แนะนำ: CUDA 11.7 หรือใหม่กว่า

การโคลนพื้นที่เก็บข้อมูลและการติดตั้งการพึ่งพา

apt-get install git-lfs
git clone https://github.com/Kwai-Kolors/Kolors
cd Kolors
conda create --name kolors python=3.8
conda activate kolors
pip install -r requirements.txt
python3 setup.py install

ดาวน์โหลดตุ้มน้ำหนัก (ลิงค์):

huggingface-cli download --resume-download Kwai-Kolors/Kolors --local-dir weights/Kolors

หรือ

git lfs clone https://huggingface.co/Kwai-Kolors/Kolors weights/Kolors

การอนุมาน：

python3 scripts/sample.py "一张瓢虫的照片，微距，变焦，高质量，电影，拿着一个牌子，写着“可图” "
# The image will be saved to "scripts/outputs/sample_text.jpg"

การสาธิตเว็บ：

python3 scripts/sampleui.py

การใช้งานกับดิฟฟิวเซอร์

ตรวจสอบให้แน่ใจว่าคุณอัปเกรดเป็นเวอร์ชันล่าสุด (0.30.0.dev0) ของดิฟฟิวเซอร์:

 git clone https://github.com/huggingface/diffusers
cd diffusers
python3 setup.py install

หมายเหตุ:

ไปป์ไลน์ใช้ EulerDiscreteScheduler เป็นค่าเริ่มต้น เราขอแนะนำให้ใช้ตัวกำหนดเวลานี้โดยมี guidance scale=5.0 และ num_inference_steps=50
ไปป์ไลน์ยังรองรับ EDMDPMSolverMultistepScheduler guidance scale=5.0 และ num_inference_steps=25 เป็นค่าเริ่มต้นที่ดีสำหรับตัวกำหนดเวลานี้
นอกจาก Text-to-Image แล้ว KolorsImg2ImgPipeline ยังรองรับ Image-to-Image อีกด้วย

จากนั้นคุณสามารถวิ่งได้:

 import torch
from diffusers import KolorsPipeline
pipe = KolorsPipeline . from_pretrained (
    "Kwai-Kolors/Kolors-diffusers" , 
    torch_dtype = torch . float16 , 
    variant = "fp16"
). to ( "cuda" )
prompt = '一张瓢虫的照片，微距，变焦，高质量，电影，拿着一个牌子，写着"可图"'
image = pipe (
    prompt = prompt ,
    negative_prompt = "" ,
    guidance_scale = 5.0 ,
    num_inference_steps = 50 ,
    generator = torch . Generator ( pipe . device ). manual_seed ( 66 ),
). images [ 0 ]
image . show ()

IP-อะแดปเตอร์-Plus

เราจัดเตรียมน้ำหนัก IP-Adapter-Plus และโค้ดการอนุมาน ซึ่งมีรายละเอียดอยู่ใน ipadapter

 # Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-IP-Adapter-Plus --local-dir weights/Kolors-IP-Adapter-Plus

 # Inference：
python3 ipadapter/sample_ipadapter_plus.py ./ipadapter/asset/test_ip.jpg "穿着黑色T恤衫，上面中文绿色大字写着“可图” "

python3 ipadapter/sample_ipadapter_plus.py ./ipadapter/asset/test_ip2.png "一只可爱的小狗在奔跑"

# The image will be saved to "scripts/outputs/"

คอนโทรลเน็ต

เรามีน้ำหนัก ControlNet และรหัสการอนุมานสามรายการ ซึ่งมีรายละเอียดอยู่ใน controlnet

 # Weights download

# Canny - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Canny --local-dir weights/Kolors-ControlNet-Canny

# Depth - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Depth --local-dir weights/Kolors-ControlNet-Depth

# Pose - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Pose --local-dir weights/Kolors-ControlNet-Pose

หากคุณตั้งใจจะใช้เครือข่ายการประมาณความลึก โปรดตรวจสอบให้แน่ใจว่าได้ดาวน์โหลดน้ำหนักแบบจำลองที่เกี่ยวข้องแล้ว

 huggingface-cli download lllyasviel/Annotators ./dpt_hybrid-midas-501f0c75.pt --local-dir ./controlnet/annotator/ckpts

ขอบคุณ DWPose ที่คุณสามารถใช้เครือข่ายการประมาณท่าทางได้ กรุณาดาวน์โหลด Pose รุ่น dw-ll_ucoco_384.onnx (baidu, google) และ Det รุ่น yolox_l.onnx (baidu, google) จากนั้นกรุณาใส่ไว้ใน controlnet/annotator/ckpts/

 # Inference：

python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_1.png 一个漂亮的女孩，高品质，超清晰，色彩鲜艳，超高分辨率，最佳品质，8k，高清，4K Canny

python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_2.png 新海诚风格，丰富的色彩，穿着绿色衬衫的女人站在田野里，唯美风景，清新明亮，斑驳的光影，最好的质量，超细节，8K画质 Depth

python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_3.png 一位穿着紫色泡泡袖连衣裙、戴着皇冠和白色蕾丝手套的女孩双手托脸，高品质，超清晰，色彩鲜艳，超高分辨率，最佳品质，8k，高清，4K Pose

# The image will be saved to "controlnet/outputs/"

การวาดภาพ

เราจัดเตรียมน้ำหนักของ Inpainting และรหัสการอนุมาน โดยมีรายละเอียดอยู่ใน Inpainting

 # Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-Inpainting --local-dir weights/Kolors-Inpainting

 # Inference：
python3 inpainting/sample_inpainting.py ./inpainting/asset/3.png ./inpainting/asset/3_mask.png 穿着美少女战士的衣服，一件类似于水手服风格的衣服，包括一个白色紧身上衣，前胸搭配一个大大的红色蝴蝶结。衣服的领子部分呈蓝色，并且有白色条纹。她还穿着一条蓝色百褶裙，超高清，辛烷渲染，高级质感，32k，高分辨率，最好的质量，超级细节，景深

python3 inpainting/sample_inpainting.py ./inpainting/asset/4.png ./inpainting/asset/4_mask.png 穿着钢铁侠的衣服，高科技盔甲，主要颜色为红色和金色，并且有一些银色装饰。胸前有一个亮起的圆形反应堆装置，充满了未来科技感。超清晰，高质量，超逼真，高分辨率，最好的质量，超级细节，景深

# The image will be saved to "scripts/outputs/"

IP-อะแดปเตอร์-FaceID-Plus

เราจัดเตรียมน้ำหนัก IP-Adapter-FaceID-Plus และโค้ดการอนุมาน ซึ่งมีรายละเอียดอยู่ใน ipadapter_FaceID

 # Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-IP-Adapter-FaceID-Plus --local-dir weights/Kolors-IP-Adapter-FaceID-Plus

 # Inference：
python ipadapter_FaceID/sample_ipadapter_faceid_plus.py ./ipadapter_FaceID/assets/image1.png "穿着晚礼服，在星光下的晚宴场景中，烛光闪闪，整个场景洋溢着浪漫而奢华的氛围"

python ipadapter_FaceID/sample_ipadapter_faceid_plus.py ./ipadapter_FaceID/assets/image2.png "西部牛仔，牛仔帽，荒野大镖客，背景是西部小镇，仙人掌，,日落余晖, 暖色调, 使用XT4胶片拍摄, 噪点, 晕影, 柯达胶卷，复古"

# The image will be saved to "scripts/outputs/"

Dreambooth-LoRA

เราจัดเตรียมโค้ดการฝึกอบรมและการอนุมานของ LoRA โดยมีรายละเอียดอยู่ใน Dreambooth-LoRA

 # Training:
sh train.sh

 # Inference：
python infer_dreambooth.py " ktxl狗在草地上跑"

- ใบอนุญาต & การอ้างอิง & การรับทราบ

ใบอนุญาต

ตุ้มน้ำหนัก Kolors เปิดกว้างสำหรับการวิจัยเชิงวิชาการอย่างเต็มที่ หากคุณต้องการใช้แบบจำลอง Kolors หรืออนุพันธ์ของแบบจำลองเพื่อวัตถุประสงค์ทางการค้าภายใต้ข้อกำหนดและเงื่อนไขการอนุญาต โปรดส่งแบบสอบถามไปที่ [email protected] เพื่อลงทะเบียนกับผู้อนุญาต หากผู้ใช้ที่ใช้งานรายเดือนของผลิตภัณฑ์หรือบริการทั้งหมดที่จัดทำโดยหรือสำหรับผู้รับอนุญาตมีผู้ใช้ที่ใช้งานรายเดือนไม่เกิน 300 ล้านรายในเดือนปฏิทินก่อนหน้า การลงทะเบียนของคุณกับผู้อนุญาตจะถือว่าได้รับใบอนุญาตประกอบธุรกิจที่เกี่ยวข้อง หากผู้ใช้ที่ใช้งานรายเดือนของผลิตภัณฑ์หรือบริการทั้งหมดที่จัดทำโดยหรือสำหรับผู้รับใบอนุญาตมีมากกว่า 300 ล้านรายต่อเดือนในเดือนปฏิทินก่อนหน้า คุณต้องขอใบอนุญาตจากผู้ให้ใบอนุญาต ซึ่งผู้ให้ใบอนุญาตอาจมอบให้แก่คุณตามดุลยพินิจของตนแต่เพียงผู้เดียว และคุณไม่ได้รับอนุญาตให้ใช้สิทธิ์ใดๆ ภายใต้ข้อตกลงนี้ เว้นแต่หรือจนกว่าเราจะให้สิทธิ์ดังกล่าวแก่คุณอย่างชัดแจ้ง

เราโอเพ่นซอร์ส Kolors เพื่อส่งเสริมการพัฒนาโมเดลข้อความเป็นรูปภาพขนาดใหญ่โดยความร่วมมือกับชุมชนโอเพ่นซอร์ส รหัสของโครงการนี้เป็นโอเพ่นซอร์สภายใต้ลิขสิทธิ์ Apache-2.0 เราขอเรียกร้องให้นักพัฒนาและผู้ใช้ทุกคนปฏิบัติตามใบอนุญาตโอเพ่นซอร์สอย่างเคร่งครัด โดยหลีกเลี่ยงการใช้โมเดลโอเพ่นซอร์ส โค้ด และอนุพันธ์ของมันเพื่อวัตถุประสงค์ใดๆ ที่อาจเป็นอันตรายต่อประเทศและสังคม หรือสำหรับบริการใดๆ ที่ไม่ได้รับการประเมินและลงทะเบียน เพื่อความปลอดภัย โปรดทราบว่าแม้เราจะพยายามอย่างเต็มที่เพื่อให้มั่นใจถึงความสอดคล้อง ความถูกต้อง และความปลอดภัยของข้อมูลในระหว่างการฝึกอบรม เนื่องจากความหลากหลายและความสามารถในการรวมเนื้อหาที่สร้างขึ้นและความสุ่มที่น่าจะเป็นที่ส่งผลต่อแบบจำลอง เราไม่สามารถรับประกันความถูกต้องและความปลอดภัยของเนื้อหาเอาต์พุตได้ และโมเดลนั้นเสี่ยงต่อการทำให้เข้าใจผิด โครงการนี้ไม่รับผิดชอบต่อปัญหาด้านความปลอดภัยของข้อมูล ความเสี่ยงต่อความคิดเห็นของสาธารณชน หรือความเสี่ยงและความรับผิดที่เกิดจากแบบจำลองที่ถูกเข้าใจผิด ใช้ในทางที่ผิด ใช้งานในทางที่ผิด หรือใช้อย่างไม่เหมาะสมอันเนื่องมาจากการใช้แบบจำลองและโค้ดโอเพ่นซอร์ส

การอ้างอิง

หากคุณพบว่างานของเรามีประโยชน์ โปรดอ้างอิงด้วย!

 @article{kolors,
  title={Kolors: Effective Training of Diffusion Model for Photorealistic Text-to-Image Synthesis},
  author={Kolors Team},
  journal={arXiv preprint},
  year={2024}
}