英文|中文
2024.09.01 基于Kolors的虚拟试穿演示Kolors-Virtual-Try-On发布!喜欢在 Kolors-Virtual-Try-On、微信帖子上试穿。
2024.08.06 Pose ControlNet发布!请查看 ControlNet(Pose) 了解更多详情。
2024.08.01 Kolors-Dreambooth-LoRA训练和推理代码发布!请查看 Dreambooth-LoRA 了解更多详情。
2024.07.31 Kolors-IP-Adapter-FaceID-Plus权重和推理代码发布!请查看 IP-Adapter-FaceID-Plus 了解更多详情。
2024.07.26 ControlNet和Inpainting Model发布!请查看 ControlNet(Canny、Depth) 和 Inpainting Model 了解更多详细信息。
2024.07.17 Kolors-IP-Adapter-Plus权重和推理代码发布!请查看 IP-Adapter-Plus 了解更多详情。
2024.07.12 ? Kolors 现已在扩散器中推出!请查看 kolors-diffusers 或下面的示例了解详细信息!感谢 Diffusers 团队的技术支持。
2024.07.10 ? Kolors 支持 ModelScope。
2024.07.09 ? Kolors 支持 ComfyUI。感谢@kijai 的出色工作。
2024.07.06 我们发布了Kolors ,这是一个在数十亿个文本图像对上训练的大型文本到图像模型。该模型是中英文双语的,支持256个token的上下文长度。更多技术细节请参阅技术报告。
2024.07.03 ? Kolors 在 FlagEval 多模式文本到图像排行榜上获得第二名,尤其是在中文和英文主观质量评估中表现出色,Kolors 获得第一名。
2024.07.02 ?恭喜!我们关于可控视频生成的论文 DragAnything: Motion Control for Anything using Entity Representation 已被 ECCV 2024 接受。
2024.02.08 ?恭喜!我们关于生成模型评估的论文《Learning Multi-Dimensional Human Preference for Text-to-Image Generation》已被 CVPR 2024 接受。
Kolors是快手Kolors团队开发的基于潜在扩散的大规模文本到图像生成模型。经过数十亿个文本图像对的训练,Kolors 在视觉质量、复杂语义准确性以及中英文字符的文本渲染方面比开源和闭源模型表现出显着优势。此外,Kolors支持中英文输入,在理解和生成中文内容方面表现出强大的性能。欲了解更多详情,请参阅本技术报告。
我们收集了一个名为 KolorsPrompts 的综合文本到图像评估数据集,以将 Kolors 与其他最先进的开放模型和闭源模型进行比较。 KolorsPrompts 包含 14 个类别和 12 个评估维度的 1,000 多个提示。评估过程包括人工评估和机器评估。在相关基准评估中,Kolors展现出极具竞争力的表现,达到行业领先标准。
对于人类评估,我们邀请了50位图像专家对不同模型产生的结果进行比较评估。专家们根据三个标准对生成的图像进行评分:视觉吸引力、文本忠实度和整体满意度。在评估中,Kolors 获得了最高的总体满意度得分,并且与其他型号相比,其视觉吸引力显着领先。
模型 | 平均总体满意度 | 平均视觉吸引力 | 平均文本忠实度 |
---|---|---|---|
Adobe-萤火虫 | 3.03 | 3.46 | 3.84 |
稳定扩散3 | 3.26 | 3.50 | 4.20 |
达尔-E 3 | 3.32 | 3.54 | 4.22 |
中途-v5 | 3.32 | 3.68 | 4.02 |
Playground-v2.5 | 3.37 | 3.73 | 4.04 |
中途-v6 | 3.58 | 3.92 | 4.18 |
科勒斯 | 3.59 | 3.99 | 4.17 |
所有模型结果均使用 2024 年 4 月产品版本进行测试
我们使用 KolorsPrompts 上的 MPS(多维人类偏好评分)作为机器评估的评价指标。 Kolors 获得了最高的 MPS 分数,这与人类评估的结果一致。
型号 | 总体MPS |
---|---|
Adobe-萤火虫 | 8.5 |
稳定扩散3 | 8.9 |
达尔-E 3 | 9.0 |
中途-v5 | 9.4 |
Playground-v2.5 | 9.8 |
中途-v6 | 10.2 |
科勒斯 | 10.3 |
更多实验结果和详细信息,请参阅我们的技术报告。
上述可视化案例提示可以在此处访问。
apt-get install git-lfs
git clone https://github.com/Kwai-Kolors/Kolors
cd Kolors
conda create --name kolors python=3.8
conda activate kolors
pip install -r requirements.txt
python3 setup.py install
huggingface-cli download --resume-download Kwai-Kolors/Kolors --local-dir weights/Kolors
或者
git lfs clone https://huggingface.co/Kwai-Kolors/Kolors weights/Kolors
python3 scripts/sample.py "一张瓢虫的照片,微距,变焦,高质量,电影,拿着一个牌子,写着“可图” "
# The image will be saved to "scripts/outputs/sample_text.jpg"
python3 scripts/sampleui.py
确保您升级到扩散器的最新版本(0.30.0.dev0):
git clone https://github.com/huggingface/diffusers
cd diffusers
python3 setup.py install
笔记:
EulerDiscreteScheduler
。我们建议使用此调度程序, guidance scale=5.0
和num_inference_steps=50
。EDMDPMSolverMultistepScheduler
。 guidance scale=5.0
和num_inference_steps=25
是这个调度程序的一个很好的默认值。KolorsImg2ImgPipeline
还支持图像到图像。然后你可以运行:
import torch
from diffusers import KolorsPipeline
pipe = KolorsPipeline . from_pretrained (
"Kwai-Kolors/Kolors-diffusers" ,
torch_dtype = torch . float16 ,
variant = "fp16"
). to ( "cuda" )
prompt = '一张瓢虫的照片,微距,变焦,高质量,电影,拿着一个牌子,写着"可图"'
image = pipe (
prompt = prompt ,
negative_prompt = "" ,
guidance_scale = 5.0 ,
num_inference_steps = 50 ,
generator = torch . Generator ( pipe . device ). manual_seed ( 66 ),
). images [ 0 ]
image . show ()
我们提供 IP-Adapter-Plus 权重和推理代码,详细信息请参阅 ipadapter。
# Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-IP-Adapter-Plus --local-dir weights/Kolors-IP-Adapter-Plus
# Inference:
python3 ipadapter/sample_ipadapter_plus.py ./ipadapter/asset/test_ip.jpg "穿着黑色T恤衫,上面中文绿色大字写着“可图” "
python3 ipadapter/sample_ipadapter_plus.py ./ipadapter/asset/test_ip2.png "一只可爱的小狗在奔跑"
# The image will be saved to "scripts/outputs/"
我们提供了三个 ControlNet 权重和推理代码,详细信息请参阅 controlnet。
# Weights download
# Canny - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Canny --local-dir weights/Kolors-ControlNet-Canny
# Depth - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Depth --local-dir weights/Kolors-ControlNet-Depth
# Pose - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Pose --local-dir weights/Kolors-ControlNet-Pose
如果您打算使用深度估计网络,请确保下载其相应的模型权重。
huggingface-cli download lllyasviel/Annotators ./dpt_hybrid-midas-501f0c75.pt --local-dir ./controlnet/annotator/ckpts
借助 DWPose,您可以利用姿势估计网络。请下载Pose模型dw-ll_ucoco_384.onnx(baidu、google)和Det模型yolox_l.onnx(baidu、google)。然后请将它们放入controlnet/annotator/ckpts/
中。
# Inference:
python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_1.png 一个漂亮的女孩,高品质,超清晰,色彩鲜艳,超高分辨率,最佳品质,8k,高清,4K Canny
python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_2.png 新海诚风格,丰富的色彩,穿着绿色衬衫的女人站在田野里,唯美风景,清新明亮,斑驳的光影,最好的质量,超细节,8K画质 Depth
python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_3.png 一位穿着紫色泡泡袖连衣裙、戴着皇冠和白色蕾丝手套的女孩双手托脸,高品质,超清晰,色彩鲜艳,超高分辨率,最佳品质,8k,高清,4K Pose
# The image will be saved to "controlnet/outputs/"
我们提供修复权重和推理代码,详细信息请参见修复。
# Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-Inpainting --local-dir weights/Kolors-Inpainting
# Inference:
python3 inpainting/sample_inpainting.py ./inpainting/asset/3.png ./inpainting/asset/3_mask.png 穿着美少女战士的衣服,一件类似于水手服风格的衣服,包括一个白色紧身上衣,前胸搭配一个大大的红色蝴蝶结。衣服的领子部分呈蓝色,并且有白色条纹。她还穿着一条蓝色百褶裙,超高清,辛烷渲染,高级质感,32k,高分辨率,最好的质量,超级细节,景深
python3 inpainting/sample_inpainting.py ./inpainting/asset/4.png ./inpainting/asset/4_mask.png 穿着钢铁侠的衣服,高科技盔甲,主要颜色为红色和金色,并且有一些银色装饰。胸前有一个亮起的圆形反应堆装置,充满了未来科技感。超清晰,高质量,超逼真,高分辨率,最好的质量,超级细节,景深
# The image will be saved to "scripts/outputs/"
我们提供IP-Adapter-FaceID-Plus权重和推理代码,详细信息请参见ipadapter_FaceID。
# Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-IP-Adapter-FaceID-Plus --local-dir weights/Kolors-IP-Adapter-FaceID-Plus
# Inference:
python ipadapter_FaceID/sample_ipadapter_faceid_plus.py ./ipadapter_FaceID/assets/image1.png "穿着晚礼服,在星光下的晚宴场景中,烛光闪闪,整个场景洋溢着浪漫而奢华的氛围"
python ipadapter_FaceID/sample_ipadapter_faceid_plus.py ./ipadapter_FaceID/assets/image2.png "西部牛仔,牛仔帽,荒野大镖客,背景是西部小镇,仙人掌,,日落余晖, 暖色调, 使用XT4胶片拍摄, 噪点, 晕影, 柯达胶卷,复古"
# The image will be saved to "scripts/outputs/"
我们提供 LoRA 训练和推理代码,详细信息请参见 Dreambooth-LoRA。
# Training:
sh train.sh
# Inference:
python infer_dreambooth.py " ktxl狗在草地上跑"
Kolors 权重对学术研究完全开放。如果您打算在许可条款和条件下将Kolors模型或其衍生品用于商业目的,请将调查问卷发送至[email protected]以向许可方注册。如果被许可方提供的或为被许可方提供的所有产品或服务的上一日历月月活跃用户数不超过3亿,您在许可方注册将被视为已获得相应的营业执照;如果被许可方提供的或为被许可方提供的所有产品或服务的月活跃用户数在上一个日历月超过 3 亿,您必须向许可方请求许可,许可方可自行决定向您授予该许可,并且您无权行使本协议项下的任何权利,除非或直到我们明确授予您此类权利。
我们开源 Kolors,与开源社区合作促进大型文本到图像模型的开发。该项目的代码在 Apache-2.0 许可下开源。我们诚挚地敦促所有开发者和用户严格遵守开源许可协议,避免将开源模型、代码及其衍生品用于任何危害国家和社会的用途或用于任何未经评估和注册的服务为了安全。请注意,尽管我们尽最大努力确保训练期间数据的合规性、准确性和安全性,但由于生成内容的多样性和可组合性以及影响模型的概率随机性,我们无法保证输出内容的准确性和安全性,并且该模型很容易产生误导。对于因使用开源模型和代码而导致模型被误导、滥用、误用或不当利用而产生的任何数据安全问题、舆情风险以及模型的风险和责任,本项目不承担任何法律责任。
如果您发现我们的工作有帮助,请引用它!
@article{kolors,
title={Kolors: Effective Training of Diffusion Model for Photorealistic Text-to-Image Synthesis},
author={Kolors Team},
journal={arXiv preprint},
year={2024}
}
如果您想给我们的研发团队和产品团队留言,欢迎加入我们的微信群。您也可以通过电子邮件联系我们([email protected])。