英語 | 中国語
2024.09.01 Kolors をベースにしたバーチャル試着デモ Kolors-Virtual-Try-On をリリース! Kolors-Virtual-Try-On の試着をお楽しみください。WeChat に投稿してください。
2024.08.06 Pose ControlNet をリリース!詳細については、ControlNet(Pose) を確認してください。
2024.08.01 Kolors-Dreambooth-LoRA のトレーニングおよび推論コードがリリースされました。詳細はDreambooth-LoRAをご確認ください。
2024.07.31 Kolors-IP-Adapter-FaceID-Plus の重みと推論コードがリリースされました。詳細については、「IP アダプター - FaceID - Plus」を参照してください。
2024.07.26 ControlNetと修復モデルをリリース!詳細については、ControlNet(Canny、Depth) とモデルの修復を確認してください。
2024.07.17 Kolors-IP-Adapter-Plus の重みと推論コードがリリースされました。詳細については、IP アダプター プラスを確認してください。
2024.07.12 ?カラーズがディフューザーに登場!詳細については、kolors-diffusers または以下の例を確認してください。ディフューザーチームの技術サポートに感謝します。
2024.07.10 ? Kolors は ModelScope をサポートしています。
2024.07.09 ? Kolors は ComfyUI をサポートしています。 @kijai の素晴らしい仕事に感謝します。
2024.07.06 私たちは、数十億のテキストと画像のペアでトレーニングされた大規模なテキストから画像へのモデルであるKolors をリリースします。このモデルは中国語と英語の両方でバイリンガルであり、256 トークンのコンテキスト長をサポートします。技術的な詳細については、技術レポートを参照してください。
2024.07.03 ? Kolors は FlagEval Multimodal Text-to-Image Leaderboard で 2 位を獲得し、特に Kolors が 1 位となった中国語と英語の主観的品質評価で優れていました。
2024.07.02 ?おめでとう!制御可能なビデオ生成に関する論文「DragAnything: Motion Control for Anything using Entity Representation」が ECCV 2024 に受理されました。
2024.02.08 ?おめでとう!生成モデルの評価に関する論文「テキストから画像への生成のための多次元人間の好みの学習」が CVPR 2024 に受理されました。
Kolors は、Kuaishou Kolors チームによって開発された、潜在拡散に基づく大規模なテキストから画像への生成モデルです。何十億ものテキストと画像のペアでトレーニングされた Kolors は、視覚的な品質、複雑な意味の正確さ、中国語と英語の両方の文字のテキスト レンダリングにおいて、オープンソース モデルとクローズド ソース モデルの両方に比べて大きな利点を示します。さらに、Kolors は中国語と英語の両方の入力をサポートしており、中国語固有のコンテンツの理解と生成において優れたパフォーマンスを示しています。詳細については、この技術レポートを参照してください。
Kolors を他の最先端のオープン モデルやクローズド ソース モデルと比較するために、KolorsPrompts という名前の包括的なテキストから画像への評価データセットを収集しました。 KolorsPrompts には、14 のカテゴリと 12 の評価次元にわたって 1,000 を超えるプロンプトが含まれています。評価プロセスには人間による評価と機械による評価の両方が組み込まれています。関連するベンチマーク評価において、Kolors は非常に競争力のあるパフォーマンスを実証し、業界をリードする基準を達成しました。
人間による評価では、50 人の画像専門家を招待し、さまざまなモデルによって生成された結果の比較評価を実施しました。専門家は、視覚的な魅力、テキストの忠実さ、全体的な満足度という 3 つの基準に基づいて、生成された画像を評価しました。評価では、Kolors が総合満足度で最も高く、他のモデルと比較して見た目の魅力で大きくリードしました。
モデル | 全体的な平均満足度 | 平均的な見た目の魅力 | 平均的なテキストの忠実度 |
---|---|---|---|
Adobe-Firefly | 3.03 | 3.46 | 3.84 |
安定拡散3 | 3.26 | 3.50 | 4.20 |
ダルイー3 | 3.32 | 3.54 | 4.22 |
ミッドジャーニー-v5 | 3.32 | 3.68 | 4.02 |
プレイグラウンド-v2.5 | 3.37 | 3.73 | 4.04 |
ミッドジャーニーv6 | 3.58 | 3.92 | 4.18 |
カラーズ | 3.59 | 3.99 | 4.17 |
すべてのモデルの結果は、2024 年 4 月の製品バージョンでテストされています
マシン評価の評価指標として、KolorsPrompts の MPS (多次元人間選好スコア) を使用しました。 Kolors は最高の MPS スコアを達成しました。これは人間による評価の結果と一致しています。
モデル | 全体的なMPS |
---|---|
Adobe-Firefly | 8.5 |
安定拡散3 | 8.9 |
ダルイー3 | 9.0 |
ミッドジャーニー-v5 | 9.4 |
プレイグラウンド-v2.5 | 9.8 |
ミッドジャーニーv6 | 10.2 |
カラーズ | 10.3 |
より詳しい実験結果と詳細については、当社の技術レポートを参照してください。
前述の視覚化されたケース プロンプトには、ここからアクセスできます。
apt-get install git-lfs
git clone https://github.com/Kwai-Kolors/Kolors
cd Kolors
conda create --name kolors python=3.8
conda activate kolors
pip install -r requirements.txt
python3 setup.py install
huggingface-cli download --resume-download Kwai-Kolors/Kolors --local-dir weights/Kolors
または
git lfs clone https://huggingface.co/Kwai-Kolors/Kolors weights/Kolors
python3 scripts/sample.py "一张瓢虫的照片,微距,变焦,高质量,电影,拿着一个牌子,写着“可图” "
# The image will be saved to "scripts/outputs/sample_text.jpg"
python3 scripts/sampleui.py
必ずディフューザーの最新バージョン (0.30.0.dev0) にアップグレードしてください。
git clone https://github.com/huggingface/diffusers
cd diffusers
python3 setup.py install
注:
EulerDiscreteScheduler
を使用します。このスケジューラーはguidance scale=5.0
およびnum_inference_steps=50
で使用することをお勧めします。EDMDPMSolverMultistepScheduler
もサポートしています。 guidance scale=5.0
およびnum_inference_steps=25
が、このスケジューラの適切なデフォルトです。KolorsImg2ImgPipeline
Image-to-Image もサポートしています。そして、次を実行できます。
import torch
from diffusers import KolorsPipeline
pipe = KolorsPipeline . from_pretrained (
"Kwai-Kolors/Kolors-diffusers" ,
torch_dtype = torch . float16 ,
variant = "fp16"
). to ( "cuda" )
prompt = '一张瓢虫的照片,微距,变焦,高质量,电影,拿着一个牌子,写着"可图"'
image = pipe (
prompt = prompt ,
negative_prompt = "" ,
guidance_scale = 5.0 ,
num_inference_steps = 50 ,
generator = torch . Generator ( pipe . device ). manual_seed ( 66 ),
). images [ 0 ]
image . show ()
ipadapter で詳しく説明されている IP-Adapter-Plus の重みと推論コードを提供します。
# Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-IP-Adapter-Plus --local-dir weights/Kolors-IP-Adapter-Plus
# Inference:
python3 ipadapter/sample_ipadapter_plus.py ./ipadapter/asset/test_ip.jpg "穿着黑色T恤衫,上面中文绿色大字写着“可图” "
python3 ipadapter/sample_ipadapter_plus.py ./ipadapter/asset/test_ip2.png "一只可爱的小狗在奔跑"
# The image will be saved to "scripts/outputs/"
3 つの ControlNet 重みと推論コードが提供されており、詳細は controlnet で説明されています。
# Weights download
# Canny - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Canny --local-dir weights/Kolors-ControlNet-Canny
# Depth - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Depth --local-dir weights/Kolors-ControlNet-Depth
# Pose - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Pose --local-dir weights/Kolors-ControlNet-Pose
深度推定ネットワークを利用する場合は、必ず対応するモデルの重みをダウンロードしてください。
huggingface-cli download lllyasviel/Annotators ./dpt_hybrid-midas-501f0c75.pt --local-dir ./controlnet/annotator/ckpts
DWPose のおかげで、姿勢推定ネットワークを利用できます。 Pose モデル dw-ll_ucoco_384.onnx (baidu、google) と Det モデル yolox_l.onnx (baidu、google) をダウンロードしてください。次に、それらをcontrolnet/annotator/ckpts/
に配置してください。
# Inference:
python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_1.png 一个漂亮的女孩,高品质,超清晰,色彩鲜艳,超高分辨率,最佳品质,8k,高清,4K Canny
python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_2.png 新海诚风格,丰富的色彩,穿着绿色衬衫的女人站在田野里,唯美风景,清新明亮,斑驳的光影,最好的质量,超细节,8K画质 Depth
python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_3.png 一位穿着紫色泡泡袖连衣裙、戴着皇冠和白色蕾丝手套的女孩双手托脸,高品质,超清晰,色彩鲜艳,超高分辨率,最佳品质,8k,高清,4K Pose
# The image will be saved to "controlnet/outputs/"
インペインティングの重みと推論コードを提供します。詳細はインペインティングで説明されています。
# Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-Inpainting --local-dir weights/Kolors-Inpainting
# Inference:
python3 inpainting/sample_inpainting.py ./inpainting/asset/3.png ./inpainting/asset/3_mask.png 穿着美少女战士的衣服,一件类似于水手服风格的衣服,包括一个白色紧身上衣,前胸搭配一个大大的红色蝴蝶结。衣服的领子部分呈蓝色,并且有白色条纹。她还穿着一条蓝色百褶裙,超高清,辛烷渲染,高级质感,32k,高分辨率,最好的质量,超级细节,景深
python3 inpainting/sample_inpainting.py ./inpainting/asset/4.png ./inpainting/asset/4_mask.png 穿着钢铁侠的衣服,高科技盔甲,主要颜色为红色和金色,并且有一些银色装饰。胸前有一个亮起的圆形反应堆装置,充满了未来科技感。超清晰,高质量,超逼真,高分辨率,最好的质量,超级细节,景深
# The image will be saved to "scripts/outputs/"
ipadapter_FaceID で詳しく説明されている IP-Adapter-FaceID-Plus の重みと推論コードを提供します。
# Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-IP-Adapter-FaceID-Plus --local-dir weights/Kolors-IP-Adapter-FaceID-Plus
# Inference:
python ipadapter_FaceID/sample_ipadapter_faceid_plus.py ./ipadapter_FaceID/assets/image1.png "穿着晚礼服,在星光下的晚宴场景中,烛光闪闪,整个场景洋溢着浪漫而奢华的氛围"
python ipadapter_FaceID/sample_ipadapter_faceid_plus.py ./ipadapter_FaceID/assets/image2.png "西部牛仔,牛仔帽,荒野大镖客,背景是西部小镇,仙人掌,,日落余晖, 暖色调, 使用XT4胶片拍摄, 噪点, 晕影, 柯达胶卷,复古"
# The image will be saved to "scripts/outputs/"
Dreambooth-LoRA で詳しく説明されている LoRA トレーニングおよび推論コードを提供します。
# Training:
sh train.sh
# Inference:
python infer_dreambooth.py " ktxl狗在草地上跑"
カラーの重みは学術研究に完全にオープンです。 Kolors モデルまたはその派生モデルをライセンス契約条件に基づいて商業目的で使用する場合は、アンケートを [email protected] に送信してライセンサーに登録してください。ライセンシーによって、またはライセンシーのために提供されたすべての製品またはサービスの月間アクティブ ユーザー数が、前暦月の月間アクティブ ユーザー数が 3 億人を超えない場合、お客様のライセンサーへの登録は、対応するビジネス ライセンスを取得したものとみなされます。ライセンシーによって、またはライセンシーのために提供されたすべての製品またはサービスの月間アクティブ ユーザー数が、前暦月の月間アクティブ ユーザー数が 3 億人を超えた場合、お客様はライセンサーにライセンスを要求する必要があり、ライセンサーはその独自の裁量でお客様にライセンスを付与することができます。 、また、当社が明示的にそのような権利を付与しない限り、または付与するまで、お客様には本契約に基づくいかなる権利も行使する権限はありません。
私たちは Kolors をオープンソース化し、オープンソース コミュニティと協力して大規模なテキストから画像へのモデルの開発を促進します。このプロジェクトのコードは、Apache-2.0 ライセンスに基づいてオープンソース化されています。私たちは、すべての開発者とユーザーがオープンソース ライセンスを厳守し、国や社会に害を及ぼす可能性のある目的、または評価および登録されていないサービスでのオープンソース モデル、コード、およびその派生物の使用を避けることを心からお勧めします。安全のために。トレーニング中のデータのコンプライアンス、正確性、安全性を確保するために最善の努力を払っていますが、生成されたコンテンツの多様性と組み合わせ可能性、およびモデルに影響を与える確率的ランダム性のため、出力コンテンツの正確性と安全性は保証できないことに注意してください。そしてモデルは誤解を招きやすいものです。このプロジェクトは、オープンソース モデルとコードの使用によりモデルが誤解されたり、悪用されたり、誤用されたり、不適切に利用されたりすることによって生じるデータ セキュリティの問題、世論リスク、またはリスクと責任について、いかなる法的責任も負いません。
私たちの仕事が役に立ったと思われる場合は、引用してください。
@article{kolors,
title={Kolors: Effective Training of Diffusion Model for Photorealistic Text-to-Image Synthesis},
author={Kolors Team},
journal={arXiv preprint},
year={2024}
}
弊社の研究開発チームや製品チームにメッセージを残したい場合は、お気軽に WeChat グループにご参加ください。電子メール([email protected])でもお問い合わせいただけます。