английский | 中文
2024.09.01 Выпущена виртуальная примерочная версия Kolors-Virtual-Try-On на базе Kolors! Наслаждайтесь примеркой, воспользовавшись публикацией Kolors-Virtual-Try-On в WeChat.
2024.08.06 Выпущен Pose ControlNet! Пожалуйста, проверьте ControlNet(Pose) для получения более подробной информации.
2024.08.01 Выпущен код обучения и вывода Kolors-Dreambooth-LoRA! Пожалуйста, посетите Dreambooth-LoRA для получения более подробной информации.
2024.07.31 Выпущен код весов и вывода Kolors-IP-Adapter-FaceID-Plus! Пожалуйста, проверьте IP-Adapter-FaceID-Plus для получения более подробной информации.
2024.07.26 Выпущены ControlNet и Inpainting Model! Пожалуйста, проверьте ControlNet (Canny, Depth) и Inpainting Model для получения более подробной информации.
2024.07.17 Выпущен код весов и вывода Kolors-IP-Adapter-Plus! Пожалуйста, проверьте IP-Adapter-Plus для получения более подробной информации.
2024.07.12 ? Kolors теперь доступен в диффузорах ! Пожалуйста, проверьте цвета-диффузоры или пример ниже для получения подробной информации! Спасибо команде Diffusers за техническую поддержку.
2024.07.10 ? Kolors поддерживает ModelScope.
2024.07.09 ? Kolors поддерживает ComfyUI. Спасибо @kijai за его прекрасную работу.
2024.07.06 Мы выпускаем Kolors , большую модель преобразования текста в изображение, обученную на миллиардах пар текст-изображение. Эта модель двуязычна на китайском и английском языках и поддерживает длину контекста 256 токенов. Более подробную техническую информацию можно найти в техническом отчете.
2024.07.03 ? Kolors занял второе место в таблице лидеров мультимодального преобразования текста в изображение FlagEval, отличившись, в частности, в субъективной оценке качества на китайском и английском языках, где Kolors занял первое место.
2024.07.02 ? Поздравляем! Наша статья об управляемой генерации видео DragAnything: Motion Control for Anything с использованием представления сущностей была принята ECCV 2024.
2024.02.08 ? Поздравляем! Наша статья об оценке генеративной модели «Изучение многомерных человеческих предпочтений для генерации текста в изображение» была принята CVPR 2024.
Kolors — это крупномасштабная модель генерации текста в изображение, основанная на скрытой диффузии, разработанная командой Kuaishou Kolors. Обученный на миллиардах пар текст-изображение, Kolors демонстрирует значительные преимущества перед моделями как с открытым, так и с закрытым исходным кодом в визуальном качестве, сложной семантической точности и рендеринге текста как для китайских, так и для английских символов. Кроме того, Kolors поддерживает ввод как на китайском, так и на английском языке, демонстрируя высокую эффективность в понимании и создании контента, специфичного для китайского языка. Более подробную информацию можно найти в этом техническом отчете.
Мы собрали комплексный набор данных для оценки преобразования текста в изображение под названием KolorsPrompts, чтобы сравнить Kolors с другими современными моделями с открытым исходным кодом и моделями с закрытым исходным кодом. KolorsPrompts включает более 1000 подсказок в 14 категориях и 12 измерениях оценки. Процесс оценки включает в себя как человеческие, так и машинные оценки. В соответствующих сравнительных оценках компания Kolors продемонстрировала высокую конкурентоспособность, достигнув ведущих отраслевых стандартов.
Для человеческой оценки мы пригласили 50 экспертов по изображениям для проведения сравнительной оценки результатов, полученных с помощью различных моделей. Эксперты оценивали сгенерированные изображения по трем критериям: внешняя привлекательность, достоверность текста и общая удовлетворенность. В ходе оценки Kolors получил наивысший общий балл удовлетворенности и значительно лидировал по визуальной привлекательности по сравнению с другими моделями.
Модель | Средняя общая удовлетворенность | Средняя визуальная привлекательность | Средняя точность текста |
---|---|---|---|
Adobe-Светлячок | 3.03 | 3,46 | 3,84 |
Стабильная диффузия 3 | 3.26 | 3,50 | 4.20 |
ДАЛЛ-И 3 | 3.32 | 3.54 | 4.22 |
Midjourney-v5 | 3.32 | 3,68 | 4.02 |
Детская площадка-v2.5 | 3.37 | 3,73 | 4.04 |
Midjourney-v6 | 3,58 | 3,92 | 4.18 |
Колорс | 3,59 | 3,99 | 4.17 |
Все результаты модели проверены на версиях продукта, выпущенных в апреле 2024 г.
Мы использовали MPS (многомерную оценку человеческих предпочтений) в KolorsPrompts в качестве показателя оценки машины. Колорс получил наивысший балл MPS, что соответствует результатам оценок на людях.
Модели | Общий MPS |
---|---|
Adobe-Светлячок | 8,5 |
Стабильная диффузия 3 | 8,9 |
ДАЛЛ-И 3 | 9,0 |
Midjourney-v5 | 9.4 |
Детская площадка-v2.5 | 9,8 |
Midjourney-v6 | 10.2 |
Колорс | 10.3 |
Дополнительные результаты и подробности эксперимента можно найти в нашем техническом отчете.
Доступ к визуализированным подсказкам кейсов, упомянутым выше, можно получить здесь.
apt-get install git-lfs
git clone https://github.com/Kwai-Kolors/Kolors
cd Kolors
conda create --name kolors python=3.8
conda activate kolors
pip install -r requirements.txt
python3 setup.py install
huggingface-cli download --resume-download Kwai-Kolors/Kolors --local-dir weights/Kolors
или
git lfs clone https://huggingface.co/Kwai-Kolors/Kolors weights/Kolors
python3 scripts/sample.py "一张瓢虫的照片,微距,变焦,高质量,电影,拿着一个牌子,写着“可图” "
# The image will be saved to "scripts/outputs/sample_text.jpg"
python3 scripts/sampleui.py
Обязательно обновите диффузоры до последней версии (0.30.0.dev0):
git clone https://github.com/huggingface/diffusers
cd diffusers
python3 setup.py install
Примечания:
EulerDiscreteScheduler
. Мы рекомендуем использовать этот планировщик с guidance scale=5.0
и num_inference_steps=50
.EDMDPMSolverMultistepScheduler
. guidance scale=5.0
и num_inference_steps=25
— хорошие значения по умолчанию для этого планировщика.KolorsImg2ImgPipeline
также поддерживает преобразование изображения в изображение.И тогда вы можете запустить:
import torch
from diffusers import KolorsPipeline
pipe = KolorsPipeline . from_pretrained (
"Kwai-Kolors/Kolors-diffusers" ,
torch_dtype = torch . float16 ,
variant = "fp16"
). to ( "cuda" )
prompt = '一张瓢虫的照片,微距,变焦,高质量,电影,拿着一个牌子,写着"可图"'
image = pipe (
prompt = prompt ,
negative_prompt = "" ,
guidance_scale = 5.0 ,
num_inference_steps = 50 ,
generator = torch . Generator ( pipe . device ). manual_seed ( 66 ),
). images [ 0 ]
image . show ()
Мы предоставляем веса IP-Adapter-Plus и код вывода, подробно описанные в ipadapter.
# Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-IP-Adapter-Plus --local-dir weights/Kolors-IP-Adapter-Plus
# Inference:
python3 ipadapter/sample_ipadapter_plus.py ./ipadapter/asset/test_ip.jpg "穿着黑色T恤衫,上面中文绿色大字写着“可图” "
python3 ipadapter/sample_ipadapter_plus.py ./ipadapter/asset/test_ip2.png "一只可爱的小狗在奔跑"
# The image will be saved to "scripts/outputs/"
Мы предоставляем три веса ControlNet и код вывода, подробно описанные в controlnet.
# Weights download
# Canny - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Canny --local-dir weights/Kolors-ControlNet-Canny
# Depth - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Depth --local-dir weights/Kolors-ControlNet-Depth
# Pose - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Pose --local-dir weights/Kolors-ControlNet-Pose
Если вы собираетесь использовать сеть оценки глубины, обязательно загрузите соответствующие веса модели.
huggingface-cli download lllyasviel/Annotators ./dpt_hybrid-midas-501f0c75.pt --local-dir ./controlnet/annotator/ckpts
Благодаря DWPose вы можете использовать сеть оценки позы. Загрузите модель Pose dw-ll_ucoco_384.onnx (baidu, google) и модель Det yolox_l.onnx (baidu, google). Затем поместите их в controlnet/annotator/ckpts/
.
# Inference:
python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_1.png 一个漂亮的女孩,高品质,超清晰,色彩鲜艳,超高分辨率,最佳品质,8k,高清,4K Canny
python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_2.png 新海诚风格,丰富的色彩,穿着绿色衬衫的女人站在田野里,唯美风景,清新明亮,斑驳的光影,最好的质量,超细节,8K画质 Depth
python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_3.png 一位穿着紫色泡泡袖连衣裙、戴着皇冠和白色蕾丝手套的女孩双手托脸,高品质,超清晰,色彩鲜艳,超高分辨率,最佳品质,8k,高清,4K Pose
# The image will be saved to "controlnet/outputs/"
Мы предоставляем веса Inpainting и код вывода, подробно описанные в inpainting.
# Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-Inpainting --local-dir weights/Kolors-Inpainting
# Inference:
python3 inpainting/sample_inpainting.py ./inpainting/asset/3.png ./inpainting/asset/3_mask.png 穿着美少女战士的衣服,一件类似于水手服风格的衣服,包括一个白色紧身上衣,前胸搭配一个大大的红色蝴蝶结。衣服的领子部分呈蓝色,并且有白色条纹。她还穿着一条蓝色百褶裙,超高清,辛烷渲染,高级质感,32k,高分辨率,最好的质量,超级细节,景深
python3 inpainting/sample_inpainting.py ./inpainting/asset/4.png ./inpainting/asset/4_mask.png 穿着钢铁侠的衣服,高科技盔甲,主要颜色为红色和金色,并且有一些银色装饰。胸前有一个亮起的圆形反应堆装置,充满了未来科技感。超清晰,高质量,超逼真,高分辨率,最好的质量,超级细节,景深
# The image will be saved to "scripts/outputs/"
Мы предоставляем веса IP-Adapter-FaceID-Plus и код вывода, подробно описанный в ipadapter_FaceID.
# Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-IP-Adapter-FaceID-Plus --local-dir weights/Kolors-IP-Adapter-FaceID-Plus
# Inference:
python ipadapter_FaceID/sample_ipadapter_faceid_plus.py ./ipadapter_FaceID/assets/image1.png "穿着晚礼服,在星光下的晚宴场景中,烛光闪闪,整个场景洋溢着浪漫而奢华的氛围"
python ipadapter_FaceID/sample_ipadapter_faceid_plus.py ./ipadapter_FaceID/assets/image2.png "西部牛仔,牛仔帽,荒野大镖客,背景是西部小镇,仙人掌,,日落余晖, 暖色调, 使用XT4胶片拍摄, 噪点, 晕影, 柯达胶卷,复古"
# The image will be saved to "scripts/outputs/"
Мы предоставляем код обучения и вывода LoRA, подробно описанный в Dreambooth-LoRA.
# Training:
sh train.sh
# Inference:
python infer_dreambooth.py " ktxl狗在草地上跑"
Гири Колорса полностью открыты для академических исследований. Если вы намерены использовать модель Kolors или ее производные в коммерческих целях в соответствии с условиями лицензирования, отправьте анкету на адрес [email protected] для регистрации у лицензиара. Если число активных пользователей всех продуктов или услуг, предоставляемых Лицензиатом или для него, в месяц не превышает 300 миллионов активных пользователей в месяц в предыдущем календарном месяце, Ваша регистрация у Лицензиара будет считаться получением соответствующей бизнес-лицензии; Если число активных пользователей всех продуктов или услуг, предоставляемых Лицензиатом или для него, превышает 300 миллионов активных пользователей в месяц за предыдущий календарный месяц, Вы должны запросить у Лицензиара лицензию, которую Лицензиар может предоставить Вам по своему усмотрению. , и Вы не имеете права осуществлять какие-либо права по настоящему Соглашению до тех пор, пока Мы иным образом прямо не предоставим Вам такие права.
Мы открываем Kolors с открытым исходным кодом, чтобы способствовать разработке больших моделей преобразования текста в изображение в сотрудничестве с сообществом открытого исходного кода. Код этого проекта открыт под лицензией Apache-2.0. Мы искренне призываем всех разработчиков и пользователей строго соблюдать лицензию с открытым исходным кодом, избегая использования модели с открытым исходным кодом, кода и его производных для любых целей, которые могут нанести вред стране и обществу, или для любых услуг, не оцененных и зарегистрированных. для безопасности. Обратите внимание, что, несмотря на все наши усилия по обеспечению соответствия, точности и безопасности данных во время обучения, из-за разнообразия и комбинируемости сгенерированного контента, а также вероятностной случайности, влияющей на модель, мы не можем гарантировать точность и безопасность выходного контента. и модель может вводить в заблуждение. Этот проект не несет никакой юридической ответственности за любые проблемы безопасности данных, риски общественного мнения или риски и обязательства, возникающие в результате введения в заблуждение, злоупотреблений, неправильного использования или неправильного использования модели из-за использования модели и кода с открытым исходным кодом.
Если наша работа окажется для вас полезной, пожалуйста, процитируйте ее!
@article{kolors,
title={Kolors: Effective Training of Diffusion Model for Photorealistic Text-to-Image Synthesis},
author={Kolors Team},
journal={arXiv preprint},
year={2024}
}
Если вы хотите оставить сообщение нашей команде исследований и разработок и команде по продуктам, присоединяйтесь к нашей группе WeChat. Вы также можете связаться с нами по электронной почте ([email protected]).