Bahasa Inggris |中文
01.09.2024 Kolors-Virtual-Try-On, demo percobaan virtual berdasarkan Kolors telah dirilis! Selamat mencoba Kolors-Virtual-Try-On, postingan WeChat.
06.08.2024 Pose ControlNet dirilis! Silakan periksa ControlNet(Pose) untuk lebih jelasnya.
01.08.2024 Kode pelatihan dan inferensi Kolors-Dreambooth-LoRA dirilis! Silakan periksa Dreambooth-LoRA untuk lebih jelasnya.
31.07.2024 Bobot dan kode inferensi Kolors-IP-Adapter-FaceID-Plus dirilis! Silakan periksa IP-Adapter-FaceID-Plus untuk lebih jelasnya.
26.07.26 ControlNet dan Model Inpainting 2024 dirilis! Silakan periksa ControlNet(Canny, Depth) dan Model Inpainting untuk lebih jelasnya.
17.07.2024. Kode inferensi dan bobot Kolors-IP-Adapter-Plus dirilis! Silakan periksa IP-Adapter-Plus untuk lebih jelasnya.
2024.07.12 ? Kolors sekarang tersedia di Diffuser ! Silakan periksa warna-diffuser atau contoh di bawah untuk detailnya! Terima kasih kepada tim Diffusers atas dukungan teknis mereka.
2024.07.10 ? Kolors mendukung ModelScope.
2024.07.09 ? Kolors mendukung ComfyUI. Terima kasih kepada @kijai dengan karya hebatnya.
06.07.2024 Kami merilis Kolors , model teks-ke-gambar besar yang dilatih pada miliaran pasangan teks-gambar. Model ini bilingual dalam bahasa Mandarin dan Inggris, dan mendukung panjang konteks 256 token. Untuk rincian teknis lebih lanjut, silakan lihat laporan teknis.
2024.07.03 ? Kolors meraih posisi kedua di FlagEval Multimodal Text-to-Image Leaderboard, terutama unggul dalam penilaian kualitas subyektif berbahasa Mandarin dan Inggris di mana Kolors menempati posisi pertama.
2024.07.02 ? Selamat! Makalah kami tentang pembuatan video yang dapat dikontrol, DragAnything: Kontrol Gerakan untuk Apa Pun menggunakan Representasi Entitas, telah diterima oleh ECCV 2024.
2024.02.08 ? Selamat! Makalah kami tentang evaluasi model generatif, Pembelajaran Preferensi Manusia Multidimensi untuk Pembuatan Teks-ke-Gambar, telah diterima oleh CVPR 2024.
Kolors adalah model pembuatan teks-ke-gambar berskala besar berdasarkan difusi laten, yang dikembangkan oleh tim Kuaishou Kolors. Dilatih pada miliaran pasangan teks-gambar, Kolors menunjukkan keunggulan signifikan dibandingkan model sumber terbuka dan sumber tertutup dalam kualitas visual, akurasi semantik yang kompleks, dan rendering teks untuk karakter China dan Inggris. Selain itu, Kolors mendukung masukan berbahasa Mandarin dan Inggris, menunjukkan kinerja yang kuat dalam memahami dan menghasilkan konten khusus berbahasa Mandarin. Untuk lebih jelasnya, silakan lihat laporan teknis ini.
Kami telah mengumpulkan kumpulan data evaluasi teks-ke-gambar komprehensif bernama KolorsPrompts untuk membandingkan Kolors dengan model terbuka dan model sumber tertutup canggih lainnya. KolorsPrompts mencakup lebih dari 1.000 perintah di 14 kategori dan 12 dimensi evaluasi. Proses evaluasi menggabungkan penilaian manusia dan mesin. Dalam evaluasi tolok ukur yang relevan, Kolors menunjukkan kinerja yang sangat kompetitif, mencapai standar industri terdepan.
Untuk evaluasi manusia, kami mengundang 50 pakar pencitraan untuk melakukan evaluasi komparatif terhadap hasil yang dihasilkan oleh berbagai model. Para ahli menilai gambar yang dihasilkan berdasarkan tiga kriteria: daya tarik visual, ketepatan teks, dan kepuasan keseluruhan. Dalam evaluasi tersebut, Kolors mencapai skor kepuasan keseluruhan tertinggi dan secara signifikan memimpin dalam daya tarik visual dibandingkan model lainnya.
Model | Rata-rata Kepuasan Keseluruhan | Daya Tarik Visual Rata-Rata | Kesetiaan Teks Rata-Rata |
---|---|---|---|
Adobe-Kunang-Kunang | 3.03 | 3.46 | 3.84 |
Difusi Stabil 3 | 3.26 | 3.50 | 4.20 |
DALL-E 3 | 3.32 | 3.54 | 4.22 |
Tengah perjalanan-v5 | 3.32 | 3.68 | 4.02 |
Taman bermain-v2.5 | 3.37 | 3.73 | 4.04 |
Tengah perjalanan-v6 | 3.58 | 3.92 | 4.18 |
Warna | 3.59 | 3,99 | 4.17 |
Semua hasil model diuji dengan versi produk April 2024
Kami menggunakan MPS (Skor Preferensi Manusia Multi-dimensi) di KolorsPrompts sebagai metrik evaluasi untuk penilaian mesin. Kolors mencapai skor MPS tertinggi, yang konsisten dengan hasil evaluasi manusia.
Model | anggota parlemen secara keseluruhan |
---|---|
Adobe-Kunang-Kunang | 8.5 |
Difusi Stabil 3 | 8.9 |
DALL-E 3 | 9.0 |
Tengah perjalanan-v5 | 9.4 |
Taman bermain-v2.5 | 9.8 |
Tengah perjalanan-v6 | 10.2 |
Warna | 10.3 |
Untuk hasil eksperimen lebih lanjut dan detailnya, silakan merujuk ke laporan teknis kami.
Petunjuk kasus yang divisualisasikan yang disebutkan di atas dapat diakses di sini.
apt-get install git-lfs
git clone https://github.com/Kwai-Kolors/Kolors
cd Kolors
conda create --name kolors python=3.8
conda activate kolors
pip install -r requirements.txt
python3 setup.py install
huggingface-cli download --resume-download Kwai-Kolors/Kolors --local-dir weights/Kolors
atau
git lfs clone https://huggingface.co/Kwai-Kolors/Kolors weights/Kolors
python3 scripts/sample.py "一张瓢虫的照片,微距,变焦,高质量,电影,拿着一个牌子,写着“可图” "
# The image will be saved to "scripts/outputs/sample_text.jpg"
python3 scripts/sampleui.py
Pastikan Anda mengupgrade diffuser ke versi terbaru (0.30.0.dev0):
git clone https://github.com/huggingface/diffusers
cd diffusers
python3 setup.py install
Catatan:
EulerDiscreteScheduler
secara default. Kami merekomendasikan penggunaan penjadwal ini dengan guidance scale=5.0
dan num_inference_steps=50
.EDMDPMSolverMultistepScheduler
. guidance scale=5.0
dan num_inference_steps=25
adalah default yang baik untuk penjadwal ini.KolorsImg2ImgPipeline
juga mendukung Image-to-Image.Dan kemudian Anda dapat menjalankan:
import torch
from diffusers import KolorsPipeline
pipe = KolorsPipeline . from_pretrained (
"Kwai-Kolors/Kolors-diffusers" ,
torch_dtype = torch . float16 ,
variant = "fp16"
). to ( "cuda" )
prompt = '一张瓢虫的照片,微距,变焦,高质量,电影,拿着一个牌子,写着"可图"'
image = pipe (
prompt = prompt ,
negative_prompt = "" ,
guidance_scale = 5.0 ,
num_inference_steps = 50 ,
generator = torch . Generator ( pipe . device ). manual_seed ( 66 ),
). images [ 0 ]
image . show ()
Kami menyediakan bobot IP-Adapter-Plus dan kode inferensi, yang dirinci di ipadapter.
# Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-IP-Adapter-Plus --local-dir weights/Kolors-IP-Adapter-Plus
# Inference:
python3 ipadapter/sample_ipadapter_plus.py ./ipadapter/asset/test_ip.jpg "穿着黑色T恤衫,上面中文绿色大字写着“可图” "
python3 ipadapter/sample_ipadapter_plus.py ./ipadapter/asset/test_ip2.png "一只可爱的小狗在奔跑"
# The image will be saved to "scripts/outputs/"
Kami menyediakan tiga bobot ControlNet dan kode inferensi, yang dirinci di controlnet.
# Weights download
# Canny - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Canny --local-dir weights/Kolors-ControlNet-Canny
# Depth - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Depth --local-dir weights/Kolors-ControlNet-Depth
# Pose - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Pose --local-dir weights/Kolors-ControlNet-Pose
Jika Anda ingin menggunakan jaringan estimasi kedalaman, pastikan untuk mengunduh bobot model yang sesuai.
huggingface-cli download lllyasviel/Annotators ./dpt_hybrid-midas-501f0c75.pt --local-dir ./controlnet/annotator/ckpts
Berkat DWPose, Anda dapat memanfaatkan jaringan estimasi pose. Silahkan download model Pose dw-ll_ucoco_384.onnx (baidu, google) dan model Det yolox_l.onnx (baidu, google). Kemudian silakan masukkan ke dalam controlnet/annotator/ckpts/
.
# Inference:
python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_1.png 一个漂亮的女孩,高品质,超清晰,色彩鲜艳,超高分辨率,最佳品质,8k,高清,4K Canny
python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_2.png 新海诚风格,丰富的色彩,穿着绿色衬衫的女人站在田野里,唯美风景,清新明亮,斑驳的光影,最好的质量,超细节,8K画质 Depth
python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_3.png 一位穿着紫色泡泡袖连衣裙、戴着皇冠和白色蕾丝手套的女孩双手托脸,高品质,超清晰,色彩鲜艳,超高分辨率,最佳品质,8k,高清,4K Pose
# The image will be saved to "controlnet/outputs/"
Kami menyediakan bobot Inpainting dan kode inferensi, yang dirinci dalam inpainting.
# Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-Inpainting --local-dir weights/Kolors-Inpainting
# Inference:
python3 inpainting/sample_inpainting.py ./inpainting/asset/3.png ./inpainting/asset/3_mask.png 穿着美少女战士的衣服,一件类似于水手服风格的衣服,包括一个白色紧身上衣,前胸搭配一个大大的红色蝴蝶结。衣服的领子部分呈蓝色,并且有白色条纹。她还穿着一条蓝色百褶裙,超高清,辛烷渲染,高级质感,32k,高分辨率,最好的质量,超级细节,景深
python3 inpainting/sample_inpainting.py ./inpainting/asset/4.png ./inpainting/asset/4_mask.png 穿着钢铁侠的衣服,高科技盔甲,主要颜色为红色和金色,并且有一些银色装饰。胸前有一个亮起的圆形反应堆装置,充满了未来科技感。超清晰,高质量,超逼真,高分辨率,最好的质量,超级细节,景深
# The image will be saved to "scripts/outputs/"
Kami menyediakan bobot dan kode inferensi IP-Adapter-FaceID-Plus, yang dirinci di ipadapter_FaceID.
# Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-IP-Adapter-FaceID-Plus --local-dir weights/Kolors-IP-Adapter-FaceID-Plus
# Inference:
python ipadapter_FaceID/sample_ipadapter_faceid_plus.py ./ipadapter_FaceID/assets/image1.png "穿着晚礼服,在星光下的晚宴场景中,烛光闪闪,整个场景洋溢着浪漫而奢华的氛围"
python ipadapter_FaceID/sample_ipadapter_faceid_plus.py ./ipadapter_FaceID/assets/image2.png "西部牛仔,牛仔帽,荒野大镖客,背景是西部小镇,仙人掌,,日落余晖, 暖色调, 使用XT4胶片拍摄, 噪点, 晕影, 柯达胶卷,复古"
# The image will be saved to "scripts/outputs/"
Kami menyediakan pelatihan LoRA dan kode inferensi, yang dirinci di Dreambooth-LoRA.
# Training:
sh train.sh
# Inference:
python infer_dreambooth.py " ktxl狗在草地上跑"
Anak timbangan Kolors terbuka penuh untuk penelitian akademis. Jika Anda bermaksud menggunakan model Kolors atau turunannya untuk tujuan komersial berdasarkan syarat dan ketentuan lisensi, silakan kirimkan kuesioner ke [email protected] untuk mendaftar ke pemberi lisensi. Jika pengguna aktif bulanan dari semua produk atau layanan yang disediakan oleh atau untuk Penerima Lisensi tidak melebihi 300 juta pengguna aktif bulanan pada bulan kalender sebelumnya, pendaftaran Anda pada Pemberi Lisensi akan dianggap telah memperoleh izin usaha terkait; Jika, pengguna aktif bulanan dari semua produk atau layanan yang disediakan oleh atau untuk Penerima Lisensi lebih besar dari 300 juta pengguna aktif bulanan pada bulan kalender sebelumnya, Anda harus meminta lisensi dari Pemberi Lisensi, yang dapat diberikan oleh Pemberi Lisensi kepada Anda berdasarkan kebijakannya sendiri. , dan Anda tidak berwenang untuk menggunakan hak apa pun berdasarkan Perjanjian ini kecuali atau hingga Kami secara tegas memberikan hak tersebut kepada Anda.
Kami menggunakan sumber terbuka Kolors untuk mempromosikan pengembangan model teks-ke-gambar berukuran besar melalui kerja sama dengan komunitas sumber terbuka. Kode proyek ini bersumber terbuka di bawah lisensi Apache-2.0. Kami dengan tulus mendesak semua pengembang dan pengguna untuk secara ketat mematuhi lisensi sumber terbuka, menghindari penggunaan model sumber terbuka, kode, dan turunannya untuk tujuan apa pun yang dapat merugikan negara dan masyarakat atau untuk layanan apa pun yang tidak dievaluasi dan didaftarkan. untuk keamanan. Perhatikan bahwa meskipun kami berupaya sebaik mungkin untuk memastikan kepatuhan, keakuratan, dan keamanan data selama pelatihan, karena keragaman dan kemampuan menggabungkan konten yang dihasilkan serta keacakan probabilistik yang memengaruhi model, kami tidak dapat menjamin keakuratan dan keamanan konten keluaran. dan modelnya rentan menyesatkan. Proyek ini tidak memikul tanggung jawab hukum apa pun atas masalah keamanan data, risiko opini publik, atau risiko dan kewajiban apa pun yang timbul dari model yang disesatkan, disalahgunakan, disalahgunakan, atau digunakan secara tidak semestinya karena penggunaan model dan kode sumber terbuka.
Jika menurut Anda pekerjaan kami bermanfaat, silakan kutip!
@article{kolors,
title={Kolors: Effective Training of Diffusion Model for Photorealistic Text-to-Image Synthesis},
author={Kolors Team},
journal={arXiv preprint},
year={2024}
}
Jika Anda ingin meninggalkan pesan untuk tim R&D dan tim produk kami, silakan bergabung dengan grup WeChat kami. Anda juga dapat menghubungi kami melalui email ([email protected]).