Загрузка Kolors - Загрузка исходного кода Kolors

английский ｜中文

Колорс: эффективное обучение модели диффузии для фотореалистичного синтеза текста в изображение

Содержание

? Новости
? План с открытым исходным кодом
? Введение
? Оценка ??
? Визуализация
?️ Использование
? Лицензия, цитирование и благодарности

? Новости

2024.09.01 Выпущена виртуальная примерочная версия Kolors-Virtual-Try-On на базе Kolors! Наслаждайтесь примеркой, воспользовавшись публикацией Kolors-Virtual-Try-On в WeChat.
2024.08.06 Выпущен Pose ControlNet! Пожалуйста, проверьте ControlNet(Pose) для получения более подробной информации.
2024.08.01 Выпущен код обучения и вывода Kolors-Dreambooth-LoRA! Пожалуйста, посетите Dreambooth-LoRA для получения более подробной информации.
2024.07.31 Выпущен код весов и вывода Kolors-IP-Adapter-FaceID-Plus! Пожалуйста, проверьте IP-Adapter-FaceID-Plus для получения более подробной информации.
2024.07.26 Выпущены ControlNet и Inpainting Model! Пожалуйста, проверьте ControlNet (Canny, Depth) и Inpainting Model для получения более подробной информации.
2024.07.17 Выпущен код весов и вывода Kolors-IP-Adapter-Plus! Пожалуйста, проверьте IP-Adapter-Plus для получения более подробной информации.
2024.07.12 ? Kolors теперь доступен в диффузорах ! Пожалуйста, проверьте цвета-диффузоры или пример ниже для получения подробной информации! Спасибо команде Diffusers за техническую поддержку.
2024.07.10 ? Kolors поддерживает ModelScope.
2024.07.09 ? Kolors поддерживает ComfyUI. Спасибо @kijai за его прекрасную работу.
2024.07.06 Мы выпускаем Kolors , большую модель преобразования текста в изображение, обученную на миллиардах пар текст-изображение. Эта модель двуязычна на китайском и английском языках и поддерживает длину контекста 256 токенов. Более подробную техническую информацию можно найти в техническом отчете.
2024.07.03 ? Kolors занял второе место в таблице лидеров мультимодального преобразования текста в изображение FlagEval, отличившись, в частности, в субъективной оценке качества на китайском и английском языках, где Kolors занял первое место.
2024.07.02 ? Поздравляем! Наша статья об управляемой генерации видео DragAnything: Motion Control for Anything с использованием представления сущностей была принята ECCV 2024.
2024.02.08 ? Поздравляем! Наша статья об оценке генеративной модели «Изучение многомерных человеческих предпочтений для генерации текста в изображение» была принята CVPR 2024.

? План с открытым исходным кодом

? Введение

Kolors — это крупномасштабная модель генерации текста в изображение, основанная на скрытой диффузии, разработанная командой Kuaishou Kolors. Обученный на миллиардах пар текст-изображение, Kolors демонстрирует значительные преимущества перед моделями как с открытым, так и с закрытым исходным кодом в визуальном качестве, сложной семантической точности и рендеринге текста как для китайских, так и для английских символов. Кроме того, Kolors поддерживает ввод как на китайском, так и на английском языке, демонстрируя высокую эффективность в понимании и создании контента, специфичного для китайского языка. Более подробную информацию можно найти в этом техническом отчете.

? Оценка

Мы собрали комплексный набор данных для оценки преобразования текста в изображение под названием KolorsPrompts, чтобы сравнить Kolors с другими современными моделями с открытым исходным кодом и моделями с закрытым исходным кодом. KolorsPrompts включает более 1000 подсказок в 14 категориях и 12 измерениях оценки. Процесс оценки включает в себя как человеческие, так и машинные оценки. В соответствующих сравнительных оценках компания Kolors продемонстрировала высокую конкурентоспособность, достигнув ведущих отраслевых стандартов.

Человеческая оценка

Для человеческой оценки мы пригласили 50 экспертов по изображениям для проведения сравнительной оценки результатов, полученных с помощью различных моделей. Эксперты оценивали сгенерированные изображения по трем критериям: внешняя привлекательность, достоверность текста и общая удовлетворенность. В ходе оценки Kolors получил наивысший общий балл удовлетворенности и значительно лидировал по визуальной привлекательности по сравнению с другими моделями.

Модель	Средняя общая удовлетворенность	Средняя визуальная привлекательность	Средняя точность текста
Adobe-Светлячок	3.03	3,46	3,84
Стабильная диффузия 3	3.26	3,50	4.20
ДАЛЛ-И 3	3.32	3.54	4.22
Midjourney-v5	3.32	3,68	4.02
Детская площадка-v2.5	3.37	3,73	4.04
Midjourney-v6	3,58	3,92	4.18
Колорс	3,59	3,99	4.17

Все результаты модели проверены на версиях продукта, выпущенных в апреле 2024 г.

Оценка машины

Мы использовали MPS (многомерную оценку человеческих предпочтений) в KolorsPrompts в качестве показателя оценки машины. Колорс получил наивысший балл MPS, что соответствует результатам оценок на людях.

Модели	Общий MPS
Adobe-Светлячок	8,5
Стабильная диффузия 3	8,9
ДАЛЛ-И 3	9,0
Midjourney-v5	9.4
Детская площадка-v2.5	9,8
Midjourney-v6	10.2
Колорс	10.3

Дополнительные результаты и подробности эксперимента можно найти в нашем техническом отчете.

? Визуализация

Портрет высокого качества

Генерация китайских элементов

Сложное семантическое понимание

Рендеринг текста

Доступ к визуализированным подсказкам кейсов, упомянутым выше, можно получить здесь.

?️ Использование

Требования

Python 3.8 или новее
PyTorch 1.13.1 или новее
Трансформеры 4.26.1 или новее
Рекомендуется: CUDA 11.7 или новее.

Клонирование репозитория и установка зависимостей

apt-get install git-lfs
git clone https://github.com/Kwai-Kolors/Kolors
cd Kolors
conda create --name kolors python=3.8
conda activate kolors
pip install -r requirements.txt
python3 setup.py install

Загрузка весов (ссылка):

huggingface-cli download --resume-download Kwai-Kolors/Kolors --local-dir weights/Kolors

или

git lfs clone https://huggingface.co/Kwai-Kolors/Kolors weights/Kolors

Вывод:

python3 scripts/sample.py "一张瓢虫的照片，微距，变焦，高质量，电影，拿着一个牌子，写着“可图” "
# The image will be saved to "scripts/outputs/sample_text.jpg"

Веб-демо:

python3 scripts/sampleui.py

Использование с диффузорами

Обязательно обновите диффузоры до последней версии (0.30.0.dev0):

 git clone https://github.com/huggingface/diffusers
cd diffusers
python3 setup.py install

Примечания:

По умолчанию конвейер использует EulerDiscreteScheduler . Мы рекомендуем использовать этот планировщик с guidance scale=5.0 и num_inference_steps=50 .
Конвейер также поддерживает EDMDPMSolverMultistepScheduler . guidance scale=5.0 и num_inference_steps=25 — хорошие значения по умолчанию для этого планировщика.
Помимо преобразования текста в изображение, KolorsImg2ImgPipeline также поддерживает преобразование изображения в изображение.

И тогда вы можете запустить:

 import torch
from diffusers import KolorsPipeline
pipe = KolorsPipeline . from_pretrained (
    "Kwai-Kolors/Kolors-diffusers" , 
    torch_dtype = torch . float16 , 
    variant = "fp16"
). to ( "cuda" )
prompt = '一张瓢虫的照片，微距，变焦，高质量，电影，拿着一个牌子，写着"可图"'
image = pipe (
    prompt = prompt ,
    negative_prompt = "" ,
    guidance_scale = 5.0 ,
    num_inference_steps = 50 ,
    generator = torch . Generator ( pipe . device ). manual_seed ( 66 ),
). images [ 0 ]
image . show ()

IP-Адаптер-Плюс

Мы предоставляем веса IP-Adapter-Plus и код вывода, подробно описанные в ipadapter.

 # Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-IP-Adapter-Plus --local-dir weights/Kolors-IP-Adapter-Plus

 # Inference：
python3 ipadapter/sample_ipadapter_plus.py ./ipadapter/asset/test_ip.jpg "穿着黑色T恤衫，上面中文绿色大字写着“可图” "

python3 ipadapter/sample_ipadapter_plus.py ./ipadapter/asset/test_ip2.png "一只可爱的小狗在奔跑"

# The image will be saved to "scripts/outputs/"

Контрольная сеть

Мы предоставляем три веса ControlNet и код вывода, подробно описанные в controlnet.

 # Weights download

# Canny - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Canny --local-dir weights/Kolors-ControlNet-Canny

# Depth - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Depth --local-dir weights/Kolors-ControlNet-Depth

# Pose - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Pose --local-dir weights/Kolors-ControlNet-Pose

Если вы собираетесь использовать сеть оценки глубины, обязательно загрузите соответствующие веса модели.

 huggingface-cli download lllyasviel/Annotators ./dpt_hybrid-midas-501f0c75.pt --local-dir ./controlnet/annotator/ckpts

Благодаря DWPose вы можете использовать сеть оценки позы. Загрузите модель Pose dw-ll_ucoco_384.onnx (baidu, google) и модель Det yolox_l.onnx (baidu, google). Затем поместите их в controlnet/annotator/ckpts/ .

 # Inference：

python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_1.png 一个漂亮的女孩，高品质，超清晰，色彩鲜艳，超高分辨率，最佳品质，8k，高清，4K Canny

python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_2.png 新海诚风格，丰富的色彩，穿着绿色衬衫的女人站在田野里，唯美风景，清新明亮，斑驳的光影，最好的质量，超细节，8K画质 Depth

python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_3.png 一位穿着紫色泡泡袖连衣裙、戴着皇冠和白色蕾丝手套的女孩双手托脸，高品质，超清晰，色彩鲜艳，超高分辨率，最佳品质，8k，高清，4K Pose

# The image will be saved to "controlnet/outputs/"

живопись

Мы предоставляем веса Inpainting и код вывода, подробно описанные в inpainting.

 # Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-Inpainting --local-dir weights/Kolors-Inpainting

 # Inference：
python3 inpainting/sample_inpainting.py ./inpainting/asset/3.png ./inpainting/asset/3_mask.png 穿着美少女战士的衣服，一件类似于水手服风格的衣服，包括一个白色紧身上衣，前胸搭配一个大大的红色蝴蝶结。衣服的领子部分呈蓝色，并且有白色条纹。她还穿着一条蓝色百褶裙，超高清，辛烷渲染，高级质感，32k，高分辨率，最好的质量，超级细节，景深

python3 inpainting/sample_inpainting.py ./inpainting/asset/4.png ./inpainting/asset/4_mask.png 穿着钢铁侠的衣服，高科技盔甲，主要颜色为红色和金色，并且有一些银色装饰。胸前有一个亮起的圆形反应堆装置，充满了未来科技感。超清晰，高质量，超逼真，高分辨率，最好的质量，超级细节，景深

# The image will be saved to "scripts/outputs/"

IP-адаптер-FaceID-Plus

Мы предоставляем веса IP-Adapter-FaceID-Plus и код вывода, подробно описанный в ipadapter_FaceID.

 # Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-IP-Adapter-FaceID-Plus --local-dir weights/Kolors-IP-Adapter-FaceID-Plus

 # Inference：
python ipadapter_FaceID/sample_ipadapter_faceid_plus.py ./ipadapter_FaceID/assets/image1.png "穿着晚礼服，在星光下的晚宴场景中，烛光闪闪，整个场景洋溢着浪漫而奢华的氛围"

python ipadapter_FaceID/sample_ipadapter_faceid_plus.py ./ipadapter_FaceID/assets/image2.png "西部牛仔，牛仔帽，荒野大镖客，背景是西部小镇，仙人掌，,日落余晖, 暖色调, 使用XT4胶片拍摄, 噪点, 晕影, 柯达胶卷，复古"

# The image will be saved to "scripts/outputs/"

Dreambooth-Лора

Мы предоставляем код обучения и вывода LoRA, подробно описанный в Dreambooth-LoRA.

 # Training:
sh train.sh

 # Inference：
python infer_dreambooth.py " ktxl狗在草地上跑"

? Лицензия, цитирование и благодарности

Лицензия

Гири Колорса полностью открыты для академических исследований. Если вы намерены использовать модель Kolors или ее производные в коммерческих целях в соответствии с условиями лицензирования, отправьте анкету на адрес [email protected] для регистрации у лицензиара. Если число активных пользователей всех продуктов или услуг, предоставляемых Лицензиатом или для него, в месяц не превышает 300 миллионов активных пользователей в месяц в предыдущем календарном месяце, Ваша регистрация у Лицензиара будет считаться получением соответствующей бизнес-лицензии; Если число активных пользователей всех продуктов или услуг, предоставляемых Лицензиатом или для него, превышает 300 миллионов активных пользователей в месяц за предыдущий календарный месяц, Вы должны запросить у Лицензиара лицензию, которую Лицензиар может предоставить Вам по своему усмотрению. , и Вы не имеете права осуществлять какие-либо права по настоящему Соглашению до тех пор, пока Мы иным образом прямо не предоставим Вам такие права.

Мы открываем Kolors с открытым исходным кодом, чтобы способствовать разработке больших моделей преобразования текста в изображение в сотрудничестве с сообществом открытого исходного кода. Код этого проекта открыт под лицензией Apache-2.0. Мы искренне призываем всех разработчиков и пользователей строго соблюдать лицензию с открытым исходным кодом, избегая использования модели с открытым исходным кодом, кода и его производных для любых целей, которые могут нанести вред стране и обществу, или для любых услуг, не оцененных и зарегистрированных. для безопасности. Обратите внимание, что, несмотря на все наши усилия по обеспечению соответствия, точности и безопасности данных во время обучения, из-за разнообразия и комбинируемости сгенерированного контента, а также вероятностной случайности, влияющей на модель, мы не можем гарантировать точность и безопасность выходного контента. и модель может вводить в заблуждение. Этот проект не несет никакой юридической ответственности за любые проблемы безопасности данных, риски общественного мнения или риски и обязательства, возникающие в результате введения в заблуждение, злоупотреблений, неправильного использования или неправильного использования модели из-за использования модели и кода с открытым исходным кодом.

Цитирование

Если наша работа окажется для вас полезной, пожалуйста, процитируйте ее!

 @article{kolors,
  title={Kolors: Effective Training of Diffusion Model for Photorealistic Text-to-Image Synthesis},
  author={Kolors Team},
  journal={arXiv preprint},
  year={2024}
}

Благодарности

Спасибо Diffusers за предоставленную кодовую базу.
Спасибо ChatGLM3 за предоставление мощной модели китайского языка.

Связаться с нами

Если вы хотите оставить сообщение нашей команде исследований и разработок и команде по продуктам, присоединяйтесь к нашей группе WeChat. Вы также можете связаться с нами по электронной почте ([email protected]).

Расширять