Englisch | 中文
01.09.2024 Kolors-Virtual-Try-On, eine virtuelle Anprobe-Demo basierend auf Kolors ist veröffentlicht! Viel Spaß beim Ausprobieren von Kolors-Virtual-Try-On, WeChat-Beitrag.
06.08.2024 Pose ControlNet ist veröffentlicht! Weitere Informationen finden Sie unter ControlNet(Pose).
01.08.2024 Der Kolors-Dreambooth-LoRA Trainings- und Inferenzcode ist veröffentlicht! Weitere Informationen finden Sie unter Dreambooth-LoRA.
2024.07.31 Der Kolors-IP-Adapter-FaceID-Plus-Gewichtungs- und Inferenzcode ist veröffentlicht! Weitere Informationen finden Sie unter IP-Adapter-FaceID-Plus.
26.07.2024 ControlNet und Inpainting Model sind veröffentlicht! Weitere Informationen finden Sie unter ControlNet (Canny, Depth) und Inpainting Model.
2024.07.17 Der Kolors-IP-Adapter-Plus-Gewichts- und Infernzcode ist veröffentlicht! Weitere Informationen finden Sie unter IP-Adapter-Plus.
2024.07.12 ? Kolors ist jetzt in Diffusoren erhältlich! Bitte schauen Sie sich Kolors-Diffusers oder das Beispiel unten für Details an! Vielen Dank an das Diffusers-Team für die technische Unterstützung.
2024.07.10 ? Kolors unterstützt ModelScope.
2024.07.09 ? Kolors unterstützt ComfyUI. Danke an @kijai für seine tolle Arbeit.
2024.07.06 Wir veröffentlichen Kolors , ein großes Text-zu-Bild-Modell, das auf Milliarden von Text-Bild-Paaren trainiert wurde. Dieses Modell ist zweisprachig in Chinesisch und Englisch und unterstützt eine Kontextlänge von 256 Token. Weitere technische Details finden Sie im technischen Bericht.
2024.07.03 ? Kolors gewann den zweiten Platz im FlagEval Multimodal Text-to-Image Leaderboard und zeichnete sich insbesondere bei der subjektiven Qualitätsbewertung für Chinesisch und Englisch aus, wo Kolors den ersten Platz belegte.
2024.07.02 ? Glückwunsch! Unser Artikel zur steuerbaren Videogenerierung, DragAnything: Motion Control for Anything using Entity Representation, wurde von ECCV 2024 angenommen.
2024.02.08 ? Glückwunsch! Unser Artikel zur generativen Modellbewertung „Learning Multi-dimensional Human Preference for Text-to-Image Generation“ wurde vom CVPR 2024 angenommen.
Kolors ist ein groß angelegtes Text-zu-Bild-Generierungsmodell, das auf latenter Diffusion basiert und vom Kuaishou Kolors-Team entwickelt wurde. Kolors wurde auf Milliarden von Text-Bild-Paaren trainiert und weist gegenüber Open-Source- und Closed-Source-Modellen erhebliche Vorteile in Bezug auf visuelle Qualität, komplexe semantische Genauigkeit und Textwiedergabe für chinesische und englische Schriftzeichen auf. Darüber hinaus unterstützt Kolors sowohl chinesische als auch englische Eingaben und zeigt eine starke Leistung beim Verstehen und Generieren chinesischspezifischer Inhalte. Weitere Einzelheiten finden Sie in diesem technischen Bericht.
Wir haben einen umfassenden Text-zu-Bild-Bewertungsdatensatz namens KolorsPrompts zusammengestellt, um Kolors mit anderen hochmodernen offenen Modellen und Closed-Source-Modellen zu vergleichen. KolorsPrompts umfasst über 1.000 Eingabeaufforderungen in 14 Kategorien und 12 Bewertungsdimensionen. Der Bewertungsprozess umfasst sowohl menschliche als auch maschinelle Bewertungen. In relevanten Benchmark-Bewertungen zeigte Kolors eine äußerst wettbewerbsfähige Leistung und erreichte branchenführende Standards.
Für die menschliche Bewertung haben wir 50 Bildexperten eingeladen, vergleichende Bewertungen der Ergebnisse verschiedener Modelle durchzuführen. Die Experten bewerteten die generierten Bilder anhand von drei Kriterien: visuelle Attraktivität, Texttreue und Gesamtzufriedenheit. In der Bewertung erreichte Kolors die höchste Gesamtzufriedenheitsbewertung und lag im Vergleich zu anderen Modellen deutlich vorne in der optischen Attraktivität.
Modell | Durchschnittliche Gesamtzufriedenheit | Durchschnittlicher visueller Reiz | Durchschnittliche Texttreue |
---|---|---|---|
Adobe-Firefly | 3.03 | 3.46 | 3,84 |
Stabile Diffusion 3 | 3.26 | 3,50 | 4.20 |
DALL-E 3 | 3.32 | 3,54 | 4.22 |
Midjourney-v5 | 3.32 | 3,68 | 4.02 |
Spielplatz-v2.5 | 3.37 | 3,73 | 4.04 |
Midjourney-v6 | 3,58 | 3,92 | 4.18 |
Kolors | 3,59 | 3,99 | 4.17 |
Alle Modellergebnisse werden mit den Produktversionen vom April 2024 getestet
Wir haben MPS (Multi-dimensional Human Preference Score) auf KolorsPrompts als Bewertungsmetrik für die maschinelle Bewertung verwendet. Kolors erreichte den höchsten MPS-Wert, was mit den Ergebnissen der menschlichen Beurteilungen übereinstimmt.
Modelle | Gesamt-MPS |
---|---|
Adobe-Firefly | 8.5 |
Stabile Diffusion 3 | 8.9 |
DALL-E 3 | 9.0 |
Midjourney-v5 | 9.4 |
Spielplatz-v2.5 | 9.8 |
Midjourney-v6 | 10.2 |
Kolors | 10.3 |
Weitere experimentelle Ergebnisse und Details finden Sie in unserem technischen Bericht.
Die oben erwähnten visualisierten Fallaufforderungen können hier abgerufen werden.
apt-get install git-lfs
git clone https://github.com/Kwai-Kolors/Kolors
cd Kolors
conda create --name kolors python=3.8
conda activate kolors
pip install -r requirements.txt
python3 setup.py install
huggingface-cli download --resume-download Kwai-Kolors/Kolors --local-dir weights/Kolors
oder
git lfs clone https://huggingface.co/Kwai-Kolors/Kolors weights/Kolors
python3 scripts/sample.py "一张瓢虫的照片,微距,变焦,高质量,电影,拿着一个牌子,写着“可图” "
# The image will be saved to "scripts/outputs/sample_text.jpg"
python3 scripts/sampleui.py
Stellen Sie sicher, dass Sie ein Upgrade auf die neueste Version (0.30.0.dev0) der Diffusoren durchführen:
git clone https://github.com/huggingface/diffusers
cd diffusers
python3 setup.py install
Hinweise:
EulerDiscreteScheduler
. Wir empfehlen die Verwendung dieses Planers mit guidance scale=5.0
und num_inference_steps=50
.EDMDPMSolverMultistepScheduler
. guidance scale=5.0
und num_inference_steps=25
sind eine gute Standardeinstellung für diesen Planer.KolorsImg2ImgPipeline
auch Image-to-Image.Und dann können Sie Folgendes ausführen:
import torch
from diffusers import KolorsPipeline
pipe = KolorsPipeline . from_pretrained (
"Kwai-Kolors/Kolors-diffusers" ,
torch_dtype = torch . float16 ,
variant = "fp16"
). to ( "cuda" )
prompt = '一张瓢虫的照片,微距,变焦,高质量,电影,拿着一个牌子,写着"可图"'
image = pipe (
prompt = prompt ,
negative_prompt = "" ,
guidance_scale = 5.0 ,
num_inference_steps = 50 ,
generator = torch . Generator ( pipe . device ). manual_seed ( 66 ),
). images [ 0 ]
image . show ()
Wir stellen IP-Adapter-Plus-Gewichte und Inferenzcode bereit, detailliert im IP-Adapter.
# Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-IP-Adapter-Plus --local-dir weights/Kolors-IP-Adapter-Plus
# Inference:
python3 ipadapter/sample_ipadapter_plus.py ./ipadapter/asset/test_ip.jpg "穿着黑色T恤衫,上面中文绿色大字写着“可图” "
python3 ipadapter/sample_ipadapter_plus.py ./ipadapter/asset/test_ip2.png "一只可爱的小狗在奔跑"
# The image will be saved to "scripts/outputs/"
Wir stellen drei ControlNet-Gewichte und Inferenzcode bereit, die im Controlnet detailliert beschrieben werden.
# Weights download
# Canny - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Canny --local-dir weights/Kolors-ControlNet-Canny
# Depth - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Depth --local-dir weights/Kolors-ControlNet-Depth
# Pose - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Pose --local-dir weights/Kolors-ControlNet-Pose
Wenn Sie beabsichtigen, das Tiefenschätzungsnetzwerk zu nutzen, stellen Sie bitte sicher, dass Sie die entsprechenden Modellgewichte herunterladen.
huggingface-cli download lllyasviel/Annotators ./dpt_hybrid-midas-501f0c75.pt --local-dir ./controlnet/annotator/ckpts
Dank DWPose können Sie das Posenschätzungsnetzwerk nutzen. Bitte laden Sie das Pose-Modell dw-ll_ucoco_384.onnx (Baidu, Google) und das Det-Modell yolox_l.onnx (Baidu, Google) herunter. Dann legen Sie sie bitte in controlnet/annotator/ckpts/
.
# Inference:
python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_1.png 一个漂亮的女孩,高品质,超清晰,色彩鲜艳,超高分辨率,最佳品质,8k,高清,4K Canny
python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_2.png 新海诚风格,丰富的色彩,穿着绿色衬衫的女人站在田野里,唯美风景,清新明亮,斑驳的光影,最好的质量,超细节,8K画质 Depth
python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_3.png 一位穿着紫色泡泡袖连衣裙、戴着皇冠和白色蕾丝手套的女孩双手托脸,高品质,超清晰,色彩鲜艳,超高分辨率,最佳品质,8k,高清,4K Pose
# The image will be saved to "controlnet/outputs/"
Wir stellen Inpainting-Gewichte und Inferenzcode bereit, die im Inpainting detailliert beschrieben werden.
# Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-Inpainting --local-dir weights/Kolors-Inpainting
# Inference:
python3 inpainting/sample_inpainting.py ./inpainting/asset/3.png ./inpainting/asset/3_mask.png 穿着美少女战士的衣服,一件类似于水手服风格的衣服,包括一个白色紧身上衣,前胸搭配一个大大的红色蝴蝶结。衣服的领子部分呈蓝色,并且有白色条纹。她还穿着一条蓝色百褶裙,超高清,辛烷渲染,高级质感,32k,高分辨率,最好的质量,超级细节,景深
python3 inpainting/sample_inpainting.py ./inpainting/asset/4.png ./inpainting/asset/4_mask.png 穿着钢铁侠的衣服,高科技盔甲,主要颜色为红色和金色,并且有一些银色装饰。胸前有一个亮起的圆形反应堆装置,充满了未来科技感。超清晰,高质量,超逼真,高分辨率,最好的质量,超级细节,景深
# The image will be saved to "scripts/outputs/"
Wir stellen IP-Adapter-FaceID-Plus-Gewichte und Inferenzcode bereit, detailliert in der ipadapter_FaceID.
# Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-IP-Adapter-FaceID-Plus --local-dir weights/Kolors-IP-Adapter-FaceID-Plus
# Inference:
python ipadapter_FaceID/sample_ipadapter_faceid_plus.py ./ipadapter_FaceID/assets/image1.png "穿着晚礼服,在星光下的晚宴场景中,烛光闪闪,整个场景洋溢着浪漫而奢华的氛围"
python ipadapter_FaceID/sample_ipadapter_faceid_plus.py ./ipadapter_FaceID/assets/image2.png "西部牛仔,牛仔帽,荒野大镖客,背景是西部小镇,仙人掌,,日落余晖, 暖色调, 使用XT4胶片拍摄, 噪点, 晕影, 柯达胶卷,复古"
# The image will be saved to "scripts/outputs/"
Wir stellen LoRA-Schulungs- und Inferenzcode bereit, detailliert im Dreambooth-LoRA.
# Training:
sh train.sh
# Inference:
python infer_dreambooth.py " ktxl狗在草地上跑"
Kolors-Gewichte sind vollständig für die akademische Forschung zugänglich. Wenn Sie beabsichtigen, das Kolors-Modell oder seine Derivate gemäß den Lizenzbedingungen für kommerzielle Zwecke zu nutzen, senden Sie bitte den Fragebogen an [email protected], um sich beim Lizenzgeber zu registrieren. Wenn die monatlichen aktiven Nutzer aller vom oder für den Lizenznehmer zur Verfügung gestellten Produkte oder Dienstleistungen 300 Millionen monatlich aktive Nutzer im vorangegangenen Kalendermonat nicht überschreiten, gilt Ihre Registrierung beim Lizenzgeber als Erhalt der entsprechenden Geschäftslizenz; Wenn die Zahl der monatlich aktiven Nutzer aller vom oder für den Lizenznehmer zur Verfügung gestellten Produkte oder Dienstleistungen im vorangegangenen Kalendermonat mehr als 300 Millionen monatlich aktive Nutzer beträgt, müssen Sie beim Lizenzgeber eine Lizenz beantragen, die der Lizenzgeber Ihnen nach eigenem Ermessen gewähren kann , und Sie sind nicht berechtigt, die Rechte aus dieser Vereinbarung auszuüben, es sei denn oder bis wir Ihnen diese Rechte ausdrücklich anderweitig gewähren.
Wir veröffentlichen Kolors als Open-Source-Lösung, um in Zusammenarbeit mit der Open-Source-Community die Entwicklung großer Text-zu-Bild-Modelle zu fördern. Der Code dieses Projekts ist Open-Source unter der Apache-2.0-Lizenz. Wir fordern alle Entwickler und Benutzer aufrichtig auf, sich strikt an die Open-Source-Lizenz zu halten und die Verwendung des Open-Source-Modells, des Codes und seiner Derivate für Zwecke zu vermeiden, die dem Land und der Gesellschaft schaden könnten, oder für Dienste, die nicht bewertet und registriert sind zur Sicherheit. Beachten Sie, dass wir trotz unserer besten Bemühungen, die Konformität, Genauigkeit und Sicherheit der Daten während des Trainings sicherzustellen, aufgrund der Vielfalt und Kombinierbarkeit der generierten Inhalte und der probabilistischen Zufälligkeit, die sich auf das Modell auswirkt, die Genauigkeit und Sicherheit der Ausgabeinhalte nicht garantieren können. und das Modell ist anfällig für Irreführung. Dieses Projekt übernimmt keine rechtliche Verantwortung für etwaige Datensicherheitsprobleme, Risiken für die öffentliche Meinung oder Risiken und Haftungen, die sich daraus ergeben, dass das Modell aufgrund der Verwendung des Open-Source-Modells und -Codes irregeführt, missbraucht, missbraucht oder unsachgemäß verwendet wird.
Wenn Sie unsere Arbeit hilfreich finden, zitieren Sie sie bitte!
@article{kolors,
title={Kolors: Effective Training of Diffusion Model for Photorealistic Text-to-Image Synthesis},
author={Kolors Team},
journal={arXiv preprint},
year={2024}
}
Wenn Sie eine Nachricht für unser F&E-Team und unser Produktteam hinterlassen möchten, können Sie sich gerne unserer WeChat-Gruppe anschließen. Sie können uns auch per E-Mail kontaktieren ([email protected]).