Anglais | 中文
01.09.2024 Kolors-Virtual-Try-On, une démo d'essai virtuel basée sur Kolors est sortie ! Profitez-en pour essayer Kolors-Virtual-Try-On, post WeChat.
2024.08.06 Pose ControlNet est sorti ! Veuillez consulter ControlNet (Pose) pour plus de détails.
01.08.2024 Le code de formation et d'inférence Kolors-Dreambooth-LoRA est publié ! Veuillez consulter Dreambooth-LoRA pour plus de détails.
2024.07.31 Les poids et le code d'inférence Kolors-IP-Adapter-FaceID-Plus sont publiés ! Veuillez consulter IP-Adapter-FaceID-Plus pour plus de détails.
2024.07.26 ControlNet et Inpainting Model sont sortis ! Veuillez consulter ControlNet (Canny, Depth) et Inpainting Model pour plus de détails.
2024.07.17 Le code de pondération et d'inférence Kolors-IP-Adapter-Plus est publié ! Veuillez consulter IP-Adapter-Plus pour plus de détails.
2024.07.12 ? Kolors est désormais disponible en Diffuseurs ! Veuillez vérifier les diffuseurs de couleurs ou l'exemple ci-dessous pour plus de détails ! Merci à l'équipe Diffuseurs pour son support technique.
2024.07.10 ? Kolors prend en charge ModelScope.
2024.07.09 ? Kolors prend en charge ComfyUI. Merci à @kijai pour son excellent travail.
06/07/2024 Nous publions Kolors , un grand modèle texte-image formé sur des milliards de paires texte-image. Ce modèle est bilingue en chinois et en anglais et prend en charge une longueur de contexte de 256 jetons. Pour plus de détails techniques, veuillez vous référer au rapport technique.
2024.07.03 ? Kolors a remporté la deuxième place du classement FlagEval Multimodal Text-to-Image, excellant particulièrement dans l'évaluation de la qualité subjective en chinois et en anglais, où Kolors a pris la première place.
2024.07.02 ? Félicitations! Notre article sur la génération vidéo contrôlable, DragAnything : Motion Control for Anything using Entity Representation, a été accepté par l'ECCV 2024.
2024.02.08 ? Félicitations! Notre article sur l'évaluation de modèles génératifs, Learning Multi-dimensionnel Human Preference for Text-to-Image Generation, a été accepté par CVPR 2024.
Kolors est un modèle de génération de texte en image à grande échelle basé sur la diffusion latente, développé par l'équipe Kuaishou Kolors. Formé sur des milliards de paires texte-image, Kolors présente des avantages significatifs par rapport aux modèles open source et fermés en termes de qualité visuelle, de précision sémantique complexe et de rendu du texte pour les caractères chinois et anglais. De plus, Kolors prend en charge les entrées en chinois et en anglais, démontrant de solides performances dans la compréhension et la génération de contenu spécifique au chinois. Pour plus de détails, veuillez vous référer à ce rapport technique.
Nous avons collecté un ensemble complet de données d'évaluation texte-image nommé KolorsPrompts pour comparer Kolors avec d'autres modèles ouverts et fermés de pointe. KolorsPrompts comprend plus de 1 000 invites réparties dans 14 catégories et 12 dimensions d'évaluation. Le processus d'évaluation intègre à la fois des évaluations humaines et automatiques. Lors d'évaluations de référence pertinentes, Kolors a démontré des performances hautement compétitives, atteignant les normes de pointe de l'industrie.
Pour l'évaluation humaine, nous avons invité 50 experts en imagerie à mener des évaluations comparatives des résultats générés par différents modèles. Les experts ont évalué les images générées sur la base de trois critères : l'attrait visuel, la fidélité du texte et la satisfaction globale. Lors de l'évaluation, Kolors a obtenu le score de satisfaction global le plus élevé et est nettement en tête en termes d'attrait visuel par rapport aux autres modèles.
Modèle | Satisfaction globale moyenne | Attrait visuel moyen | Fidélité moyenne du texte |
---|---|---|---|
Adobe-Firefly | 3.03 | 3.46 | 3,84 |
Diffusion stable 3 | 3.26 | 3,50 | 4.20 |
DALL-E 3 | 3.32 | 3,54 | 4.22 |
Mi-parcours-v5 | 3.32 | 3,68 | 4.02 |
Aire de jeux-v2.5 | 3.37 | 3,73 | 4.04 |
Mi-parcours-v6 | 3,58 | 3,92 | 4.18 |
Couleurs | 3,59 | 3,99 | 4.17 |
Tous les résultats du modèle sont testés avec les versions de produit d'avril 2024
Nous avons utilisé le MPS (Multi-dimensionnel Human Preference Score) sur KolorsPrompts comme mesure d'évaluation pour l'évaluation des machines. Kolors a obtenu le score MPS le plus élevé, ce qui est cohérent avec les résultats des évaluations humaines.
Modèles | MPS global |
---|---|
Adobe-Firefly | 8.5 |
Diffusion stable 3 | 8.9 |
DALL-E 3 | 9.0 |
Mi-parcours-v5 | 9.4 |
Aire de jeux-v2.5 | 9.8 |
Mi-parcours-v6 | 10.2 |
Couleurs | 10.3 |
Pour plus de résultats expérimentaux et de détails, veuillez vous référer à notre rapport technique.
Les invites de cas visualisées mentionnées ci-dessus sont accessibles ici.
apt-get install git-lfs
git clone https://github.com/Kwai-Kolors/Kolors
cd Kolors
conda create --name kolors python=3.8
conda activate kolors
pip install -r requirements.txt
python3 setup.py install
huggingface-cli download --resume-download Kwai-Kolors/Kolors --local-dir weights/Kolors
ou
git lfs clone https://huggingface.co/Kwai-Kolors/Kolors weights/Kolors
python3 scripts/sample.py "一张瓢虫的照片,微距,变焦,高质量,电影,拿着一个牌子,写着“可图” "
# The image will be saved to "scripts/outputs/sample_text.jpg"
python3 scripts/sampleui.py
Assurez-vous de mettre à niveau vers la dernière version (0.30.0.dev0) des diffuseurs :
git clone https://github.com/huggingface/diffusers
cd diffusers
python3 setup.py install
Remarques :
EulerDiscreteScheduler
par défaut. Nous vous recommandons d'utiliser ce planificateur avec guidance scale=5.0
et num_inference_steps=50
.EDMDPMSolverMultistepScheduler
. guidance scale=5.0
et num_inference_steps=25
est une bonne valeur par défaut pour ce planificateur.KolorsImg2ImgPipeline
prend également en charge l'Image-to-Image.Et puis vous pouvez exécuter :
import torch
from diffusers import KolorsPipeline
pipe = KolorsPipeline . from_pretrained (
"Kwai-Kolors/Kolors-diffusers" ,
torch_dtype = torch . float16 ,
variant = "fp16"
). to ( "cuda" )
prompt = '一张瓢虫的照片,微距,变焦,高质量,电影,拿着一个牌子,写着"可图"'
image = pipe (
prompt = prompt ,
negative_prompt = "" ,
guidance_scale = 5.0 ,
num_inference_steps = 50 ,
generator = torch . Generator ( pipe . device ). manual_seed ( 66 ),
). images [ 0 ]
image . show ()
Nous fournissons les poids et le code d'inférence IP-Adapter-Plus, détaillés dans l'ipadapter.
# Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-IP-Adapter-Plus --local-dir weights/Kolors-IP-Adapter-Plus
# Inference:
python3 ipadapter/sample_ipadapter_plus.py ./ipadapter/asset/test_ip.jpg "穿着黑色T恤衫,上面中文绿色大字写着“可图” "
python3 ipadapter/sample_ipadapter_plus.py ./ipadapter/asset/test_ip2.png "一只可爱的小狗在奔跑"
# The image will be saved to "scripts/outputs/"
Nous fournissons trois poids ControlNet et un code d'inférence, détaillés dans le controlnet.
# Weights download
# Canny - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Canny --local-dir weights/Kolors-ControlNet-Canny
# Depth - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Depth --local-dir weights/Kolors-ControlNet-Depth
# Pose - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Pose --local-dir weights/Kolors-ControlNet-Pose
Si vous avez l'intention d'utiliser le réseau d'estimation de profondeur, assurez-vous de télécharger les poids de modèle correspondants.
huggingface-cli download lllyasviel/Annotators ./dpt_hybrid-midas-501f0c75.pt --local-dir ./controlnet/annotator/ckpts
Grâce à DWPose, vous pouvez utiliser le réseau d'estimation de pose. Veuillez télécharger le modèle Pose dw-ll_ucoco_384.onnx (baidu, google) et le modèle Det yolox_l.onnx (baidu, google). Ensuite, veuillez les mettre dans controlnet/annotator/ckpts/
.
# Inference:
python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_1.png 一个漂亮的女孩,高品质,超清晰,色彩鲜艳,超高分辨率,最佳品质,8k,高清,4K Canny
python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_2.png 新海诚风格,丰富的色彩,穿着绿色衬衫的女人站在田野里,唯美风景,清新明亮,斑驳的光影,最好的质量,超细节,8K画质 Depth
python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_3.png 一位穿着紫色泡泡袖连衣裙、戴着皇冠和白色蕾丝手套的女孩双手托脸,高品质,超清晰,色彩鲜艳,超高分辨率,最佳品质,8k,高清,4K Pose
# The image will be saved to "controlnet/outputs/"
Nous fournissons des poids d’Inpainting et un code d’inférence, détaillés dans l’inpainting.
# Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-Inpainting --local-dir weights/Kolors-Inpainting
# Inference:
python3 inpainting/sample_inpainting.py ./inpainting/asset/3.png ./inpainting/asset/3_mask.png 穿着美少女战士的衣服,一件类似于水手服风格的衣服,包括一个白色紧身上衣,前胸搭配一个大大的红色蝴蝶结。衣服的领子部分呈蓝色,并且有白色条纹。她还穿着一条蓝色百褶裙,超高清,辛烷渲染,高级质感,32k,高分辨率,最好的质量,超级细节,景深
python3 inpainting/sample_inpainting.py ./inpainting/asset/4.png ./inpainting/asset/4_mask.png 穿着钢铁侠的衣服,高科技盔甲,主要颜色为红色和金色,并且有一些银色装饰。胸前有一个亮起的圆形反应堆装置,充满了未来科技感。超清晰,高质量,超逼真,高分辨率,最好的质量,超级细节,景深
# The image will be saved to "scripts/outputs/"
Nous fournissons les poids et le code d'inférence IP-Adapter-FaceID-Plus, détaillés dans ipadapter_FaceID.
# Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-IP-Adapter-FaceID-Plus --local-dir weights/Kolors-IP-Adapter-FaceID-Plus
# Inference:
python ipadapter_FaceID/sample_ipadapter_faceid_plus.py ./ipadapter_FaceID/assets/image1.png "穿着晚礼服,在星光下的晚宴场景中,烛光闪闪,整个场景洋溢着浪漫而奢华的氛围"
python ipadapter_FaceID/sample_ipadapter_faceid_plus.py ./ipadapter_FaceID/assets/image2.png "西部牛仔,牛仔帽,荒野大镖客,背景是西部小镇,仙人掌,,日落余晖, 暖色调, 使用XT4胶片拍摄, 噪点, 晕影, 柯达胶卷,复古"
# The image will be saved to "scripts/outputs/"
Nous fournissons une formation LoRA et un code d'inférence, détaillés dans Dreambooth-LoRA.
# Training:
sh train.sh
# Inference:
python infer_dreambooth.py " ktxl狗在草地上跑"
Les poids Kolors sont entièrement ouverts à la recherche académique. Si vous avez l'intention d'utiliser le modèle Kolors ou ses dérivés à des fins commerciales selon les termes et conditions de la licence, veuillez envoyer le questionnaire à [email protected] pour vous inscrire auprès du concédant de licence. Si le nombre d'utilisateurs actifs mensuels de tous les produits ou services mis à disposition par ou pour le titulaire de licence ne dépasse pas 300 millions d'utilisateurs actifs mensuels au cours du mois civil précédent, votre inscription auprès du concédant de licence sera réputée avoir obtenu la licence commerciale correspondante ; Si le nombre d'utilisateurs actifs mensuels de tous les produits ou services mis à disposition par ou pour le titulaire de licence est supérieur à 300 millions d'utilisateurs actifs mensuels au cours du mois civil précédent, vous devez demander une licence au concédant de licence, que celui-ci peut vous accorder à sa seule discrétion. , et vous n'êtes autorisé à exercer aucun des droits en vertu du présent accord, à moins que nous ne vous accordions expressément ces droits.
Nous open source Kolors pour promouvoir le développement de grands modèles texte-image en collaboration avec la communauté open source. Le code de ce projet est open source sous licence Apache-2.0. Nous exhortons sincèrement tous les développeurs et utilisateurs à respecter strictement la licence open source, en évitant d'utiliser le modèle, le code et ses dérivés open source à des fins susceptibles de nuire au pays et à la société ou pour tout service non évalué et enregistré. pour la sécurité. Notez que malgré nos meilleurs efforts pour assurer la conformité, l'exactitude et la sécurité des données pendant la formation, en raison de la diversité et de la combinabilité du contenu généré et du caractère aléatoire probabiliste affectant le modèle, nous ne pouvons garantir l'exactitude et la sécurité du contenu de sortie, et le modèle est susceptible d’induire en erreur. Ce projet n'assume aucune responsabilité légale pour les problèmes de sécurité des données, les risques d'opinion publique ou les risques et responsabilités découlant du modèle induit en erreur, abusé, mal utilisé ou utilisé de manière inappropriée en raison de l'utilisation du modèle et du code open source.
Si vous trouvez notre travail utile, veuillez le citer !
@article{kolors,
title={Kolors: Effective Training of Diffusion Model for Photorealistic Text-to-Image Synthesis},
author={Kolors Team},
journal={arXiv preprint},
year={2024}
}
Si vous souhaitez laisser un message à notre équipe R&D et à notre équipe produit, n'hésitez pas à rejoindre notre groupe WeChat. Vous pouvez également nous contacter par e-mail ([email protected]).