Kolorsダウンロード - Kolorsソースコードのダウンロード

英語｜中国語

Kolors: フォトリアリスティックなテキストから画像への合成のための拡散モデルの効果的なトレーニング

コンテンツ

?ニュース
?オープンソースプラン
?導入
?評価？？
?視覚化
⁉️使用方法
?ライセンス、引用、謝辞

?ニュース

2024.09.01 Kolors をベースにしたバーチャル試着デモ Kolors-Virtual-Try-On をリリース！ Kolors-Virtual-Try-On の試着をお楽しみください。WeChat に投稿してください。
2024.08.06 Pose ControlNet をリリース！詳細については、ControlNet(Pose) を確認してください。
2024.08.01 Kolors-Dreambooth-LoRA のトレーニングおよび推論コードがリリースされました。詳細はDreambooth-LoRAをご確認ください。
2024.07.31 Kolors-IP-Adapter-FaceID-Plus の重みと推論コードがリリースされました。詳細については、「IP アダプター - FaceID - Plus」を参照してください。
2024.07.26 ControlNetと修復モデルをリリース！詳細については、ControlNet(Canny、Depth) とモデルの修復を確認してください。
2024.07.17 Kolors-IP-Adapter-Plus の重みと推論コードがリリースされました。詳細については、IP アダプタープラスを確認してください。
2024.07.12 ?カラーズがディフューザーに登場！詳細については、kolors-diffusers または以下の例を確認してください。ディフューザーチームの技術サポートに感謝します。
2024.07.10 ? Kolors は ModelScope をサポートしています。
2024.07.09 ? Kolors は ComfyUI をサポートしています。 @kijai の素晴らしい仕事に感謝します。
2024.07.06 私たちは、数十億のテキストと画像のペアでトレーニングされた大規模なテキストから画像へのモデルであるKolors をリリースします。このモデルは中国語と英語の両方でバイリンガルであり、256 トークンのコンテキスト長をサポートします。技術的な詳細については、技術レポートを参照してください。
2024.07.03 ? Kolors は FlagEval Multimodal Text-to-Image Leaderboard で 2 位を獲得し、特に Kolors が 1 位となった中国語と英語の主観的品質評価で優れていました。
2024.07.02 ?おめでとう！制御可能なビデオ生成に関する論文「DragAnything: Motion Control for Anything using Entity Representation」が ECCV 2024 に受理されました。
2024.02.08 ?おめでとう！生成モデルの評価に関する論文「テキストから画像への生成のための多次元人間の好みの学習」が CVPR 2024 に受理されました。

?オープンソースプラン

?導入

Kolors は、Kuaishou Kolors チームによって開発された、潜在拡散に基づく大規模なテキストから画像への生成モデルです。何十億ものテキストと画像のペアでトレーニングされた Kolors は、視覚的な品質、複雑な意味の正確さ、中国語と英語の両方の文字のテキストレンダリングにおいて、オープンソースモデルとクローズドソースモデルの両方に比べて大きな利点を示します。さらに、Kolors は中国語と英語の両方の入力をサポートしており、中国語固有のコンテンツの理解と生成において優れたパフォーマンスを示しています。詳細については、この技術レポートを参照してください。

?評価

Kolors を他の最先端のオープンモデルやクローズドソースモデルと比較するために、KolorsPrompts という名前の包括的なテキストから画像への評価データセットを収集しました。 KolorsPrompts には、14 のカテゴリと 12 の評価次元にわたって 1,000 を超えるプロンプトが含まれています。評価プロセスには人間による評価と機械による評価の両方が組み込まれています。関連するベンチマーク評価において、Kolors は非常に競争力のあるパフォーマンスを実証し、業界をリードする基準を達成しました。

人間性評価

人間による評価では、50 人の画像専門家を招待し、さまざまなモデルによって生成された結果の比較評価を実施しました。専門家は、視覚的な魅力、テキストの忠実さ、全体的な満足度という 3 つの基準に基づいて、生成された画像を評価しました。評価では、Kolors が総合満足度で最も高く、他のモデルと比較して見た目の魅力で大きくリードしました。

モデル	全体的な平均満足度	平均的な見た目の魅力	平均的なテキストの忠実度
Adobe-Firefly	3.03	3.46	3.84
安定拡散3	3.26	3.50	4.20
ダルイー3	3.32	3.54	4.22
ミッドジャーニー-v5	3.32	3.68	4.02
プレイグラウンド-v2.5	3.37	3.73	4.04
ミッドジャーニーv6	3.58	3.92	4.18
カラーズ	3.59	3.99	4.17

すべてのモデルの結果は、2024 年 4 月の製品バージョンでテストされています

機械の評価

マシン評価の評価指標として、KolorsPrompts の MPS (多次元人間選好スコア) を使用しました。 Kolors は最高の MPS スコアを達成しました。これは人間による評価の結果と一致しています。

モデル	全体的なMPS
Adobe-Firefly	8.5
安定拡散3	8.9
ダルイー3	9.0
ミッドジャーニー-v5	9.4
プレイグラウンド-v2.5	9.8
ミッドジャーニーv6	10.2
カラーズ	10.3

より詳しい実験結果と詳細については、当社の技術レポートを参照してください。

?視覚化

高品質のポートレート

中国語要素の生成

複雑な意味の理解

テキストのレンダリング

前述の視覚化されたケースプロンプトには、ここからアクセスできます。

⁉️使用方法

要件

Python 3.8以降
PyTorch 1.13.1 以降
トランスフォーマー 4.26.1 以降
推奨: CUDA 11.7以降

リポジトリのクローン作成と依存関係のインストール

apt-get install git-lfs
git clone https://github.com/Kwai-Kolors/Kolors
cd Kolors
conda create --name kolors python=3.8
conda activate kolors
pip install -r requirements.txt
python3 setup.py install

ウェイトダウンロード（リンク）：

huggingface-cli download --resume-download Kwai-Kolors/Kolors --local-dir weights/Kolors

または

git lfs clone https://huggingface.co/Kwai-Kolors/Kolors weights/Kolors

推論：

python3 scripts/sample.py "一张瓢虫的照片，微距，变焦，高质量，电影，拿着一个牌子，写着“可图” "
# The image will be saved to "scripts/outputs/sample_text.jpg"

ウェブデモ：

python3 scripts/sampleui.py

ディフューザーと併用する

必ずディフューザーの最新バージョン (0.30.0.dev0) にアップグレードしてください。

 git clone https://github.com/huggingface/diffusers
cd diffusers
python3 setup.py install

注:

パイプラインはデフォルトでEulerDiscreteSchedulerを使用します。このスケジューラーはguidance scale=5.0およびnum_inference_steps=50で使用することをお勧めします。
このパイプラインは、 EDMDPMSolverMultistepSchedulerもサポートしています。 guidance scale=5.0およびnum_inference_steps=25が、このスケジューラの適切なデフォルトです。
Text-to-Image に加えて、 KolorsImg2ImgPipeline Image-to-Image もサポートしています。

そして、次を実行できます。

 import torch
from diffusers import KolorsPipeline
pipe = KolorsPipeline . from_pretrained (
    "Kwai-Kolors/Kolors-diffusers" , 
    torch_dtype = torch . float16 , 
    variant = "fp16"
). to ( "cuda" )
prompt = '一张瓢虫的照片，微距，变焦，高质量，电影，拿着一个牌子，写着"可图"'
image = pipe (
    prompt = prompt ,
    negative_prompt = "" ,
    guidance_scale = 5.0 ,
    num_inference_steps = 50 ,
    generator = torch . Generator ( pipe . device ). manual_seed ( 66 ),
). images [ 0 ]
image . show ()

IPアダプタープラス

ipadapter で詳しく説明されている IP-Adapter-Plus の重みと推論コードを提供します。

 # Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-IP-Adapter-Plus --local-dir weights/Kolors-IP-Adapter-Plus

 # Inference：
python3 ipadapter/sample_ipadapter_plus.py ./ipadapter/asset/test_ip.jpg "穿着黑色T恤衫，上面中文绿色大字写着“可图” "

python3 ipadapter/sample_ipadapter_plus.py ./ipadapter/asset/test_ip2.png "一只可爱的小狗在奔跑"

# The image will be saved to "scripts/outputs/"

コントロールネット

3 つの ControlNet 重みと推論コードが提供されており、詳細は controlnet で説明されています。

 # Weights download

# Canny - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Canny --local-dir weights/Kolors-ControlNet-Canny

# Depth - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Depth --local-dir weights/Kolors-ControlNet-Depth

# Pose - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Pose --local-dir weights/Kolors-ControlNet-Pose

深度推定ネットワークを利用する場合は、必ず対応するモデルの重みをダウンロードしてください。

 huggingface-cli download lllyasviel/Annotators ./dpt_hybrid-midas-501f0c75.pt --local-dir ./controlnet/annotator/ckpts

DWPose のおかげで、姿勢推定ネットワークを利用できます。 Pose モデル dw-ll_ucoco_384.onnx (baidu、google) と Det モデル yolox_l.onnx (baidu、google) をダウンロードしてください。次に、それらをcontrolnet/annotator/ckpts/に配置してください。

 # Inference：

python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_1.png 一个漂亮的女孩，高品质，超清晰，色彩鲜艳，超高分辨率，最佳品质，8k，高清，4K Canny

python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_2.png 新海诚风格，丰富的色彩，穿着绿色衬衫的女人站在田野里，唯美风景，清新明亮，斑驳的光影，最好的质量，超细节，8K画质 Depth

python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_3.png 一位穿着紫色泡泡袖连衣裙、戴着皇冠和白色蕾丝手套的女孩双手托脸，高品质，超清晰，色彩鲜艳，超高分辨率，最佳品质，8k，高清，4K Pose

# The image will be saved to "controlnet/outputs/"

修復

インペインティングの重みと推論コードを提供します。詳細はインペインティングで説明されています。

 # Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-Inpainting --local-dir weights/Kolors-Inpainting

 # Inference：
python3 inpainting/sample_inpainting.py ./inpainting/asset/3.png ./inpainting/asset/3_mask.png 穿着美少女战士的衣服，一件类似于水手服风格的衣服，包括一个白色紧身上衣，前胸搭配一个大大的红色蝴蝶结。衣服的领子部分呈蓝色，并且有白色条纹。她还穿着一条蓝色百褶裙，超高清，辛烷渲染，高级质感，32k，高分辨率，最好的质量，超级细节，景深

python3 inpainting/sample_inpainting.py ./inpainting/asset/4.png ./inpainting/asset/4_mask.png 穿着钢铁侠的衣服，高科技盔甲，主要颜色为红色和金色，并且有一些银色装饰。胸前有一个亮起的圆形反应堆装置，充满了未来科技感。超清晰，高质量，超逼真，高分辨率，最好的质量，超级细节，景深

# The image will be saved to "scripts/outputs/"

IP アダプター-FaceID-Plus

ipadapter_FaceID で詳しく説明されている IP-Adapter-FaceID-Plus の重みと推論コードを提供します。

 # Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-IP-Adapter-FaceID-Plus --local-dir weights/Kolors-IP-Adapter-FaceID-Plus

 # Inference：
python ipadapter_FaceID/sample_ipadapter_faceid_plus.py ./ipadapter_FaceID/assets/image1.png "穿着晚礼服，在星光下的晚宴场景中，烛光闪闪，整个场景洋溢着浪漫而奢华的氛围"

python ipadapter_FaceID/sample_ipadapter_faceid_plus.py ./ipadapter_FaceID/assets/image2.png "西部牛仔，牛仔帽，荒野大镖客，背景是西部小镇，仙人掌，,日落余晖, 暖色调, 使用XT4胶片拍摄, 噪点, 晕影, 柯达胶卷，复古"

# The image will be saved to "scripts/outputs/"

Dreambooth-LoRA

Dreambooth-LoRA で詳しく説明されている LoRA トレーニングおよび推論コードを提供します。

 # Training:
sh train.sh

 # Inference：
python infer_dreambooth.py " ktxl狗在草地上跑"

?ライセンス、引用、謝辞

ライセンス

カラーの重みは学術研究に完全にオープンです。 Kolors モデルまたはその派生モデルをライセンス契約条件に基づいて商業目的で使用する場合は、アンケートを [email protected] に送信してライセンサーに登録してください。ライセンシーによって、またはライセンシーのために提供されたすべての製品またはサービスの月間アクティブユーザー数が、前暦月の月間アクティブユーザー数が 3 億人を超えない場合、お客様のライセンサーへの登録は、対応するビジネスライセンスを取得したものとみなされます。ライセンシーによって、またはライセンシーのために提供されたすべての製品またはサービスの月間アクティブユーザー数が、前暦月の月間アクティブユーザー数が 3 億人を超えた場合、お客様はライセンサーにライセンスを要求する必要があり、ライセンサーはその独自の裁量でお客様にライセンスを付与することができます。、また、当社が明示的にそのような権利を付与しない限り、または付与するまで、お客様には本契約に基づくいかなる権利も行使する権限はありません。

私たちは Kolors をオープンソース化し、オープンソースコミュニティと協力して大規模なテキストから画像へのモデルの開発を促進します。このプロジェクトのコードは、Apache-2.0 ライセンスに基づいてオープンソース化されています。私たちは、すべての開発者とユーザーがオープンソースライセンスを厳守し、国や社会に害を及ぼす可能性のある目的、または評価および登録されていないサービスでのオープンソースモデル、コード、およびその派生物の使用を避けることを心からお勧めします。安全のために。トレーニング中のデータのコンプライアンス、正確性、安全性を確保するために最善の努力を払っていますが、生成されたコンテンツの多様性と組み合わせ可能性、およびモデルに影響を与える確率的ランダム性のため、出力コンテンツの正確性と安全性は保証できないことに注意してください。そしてモデルは誤解を招きやすいものです。このプロジェクトは、オープンソースモデルとコードの使用によりモデルが誤解されたり、悪用されたり、誤用されたり、不適切に利用されたりすることによって生じるデータセキュリティの問題、世論リスク、またはリスクと責任について、いかなる法的責任も負いません。

引用

私たちの仕事が役に立ったと思われる場合は、引用してください。

 @article{kolors,
  title={Kolors: Effective Training of Diffusion Model for Photorealistic Text-to-Image Synthesis},
  author={Kolors Team},
  journal={arXiv preprint},
  year={2024}
}