Kolors下載 - Kolors原始碼下載

英文｜中文

Kolors：用於真實感文本到圖像合成的擴散模型的有效訓練

內容

？訊息
？開源計劃
？介紹
？評估？
？視覺化
?️ 用法
？授權、引用和致謝

？訊息

2024.09.01 基於Kolors的虛擬試穿示範Kolors-Virtual-Try-On發布！喜歡在 Kolors-Virtual-Try-On、微信貼文上試穿。
2024.08.06 Pose ControlNet發布！請查看 ControlNet(Pose) 以了解更多詳情。
2024.08.01 Kolors-Dreambooth-LoRA訓練與推理程式碼發布！請查看 Dreambooth-LoRA 以了解更多詳情。
2024.07.31 Kolors-IP-Adapter-FaceID-Plus權重與推理代碼發布！請查看 IP-Adapter-FaceID-Plus 以了解更多詳情。
2024.07.26 ControlNet和Inpainting Model發布！請查看 ControlNet(Canny、Depth) 和 Inpainting Model 以了解更多詳細資訊。
2024.07.17 Kolors-IP-Adapter-Plus權重和推理代碼發布！請查看 IP-Adapter-Plus 以了解更多詳情。
2024.07.12 ? Kolors 現已在擴散器中推出！請查看 kolors-diffusers 或下面的範例以了解詳細資訊！感謝 Diffusers 團隊的技術支援。
2024.07.10 ? Kolors 支援 ModelScope。
2024.07.09 ? Kolors 支援 ComfyUI。感謝@kijai 的出色工作。
2024.07.06 我們發布了Kolors ，這是一個在數十億個文字圖像對上訓練的大型文本到圖像模型。該模型是中英文雙語的，支援256個token的上下文長度。更多技術細節請參閱技術報告。
2024.07.03 ? Kolors 在 FlagEval 多模式文字到影像排行榜上獲得第二名，尤其是在中文和英文主觀品質評估中表現出色，Kolors 獲得第一名。
2024.07.02 ?恭喜！我們關於可控視訊產生的論文 DragAnything: Motion Control for Anything using Entity Representation 已被 ECCV 2024 接受。
2024.02.08 ?恭喜！我們關於生成模型評估的論文《Learning Multi-Dimensional Human Preference for Text-to-Image Generation》已被 CVPR 2024 接受。

？開源計劃

？介紹

Kolors是快手Kolors團隊開發的基於潛在擴散的大規模文字到圖像生成模型。經過數十億個文字影像對的訓練，Kolors 在視覺品質、複雜語義準確性以及中英文字元的文字渲染方面比開源和閉源模型表現出顯著優勢。此外，Kolors支援中文和英文輸入，在理解和生成中文內容方面表現出強大的性能。如欲了解更多詳情，請參閱本技術報告。

？評估

我們收集了一個名為 KolorsPrompts 的綜合文字到影像評估資料集，以將 Kolors 與其他最先進的開放模型和封閉來源模型進行比較。 KolorsPrompts 包含 14 個類別和 12 個評估維度的 1,000 多個提示。評估過程包括人工評估和機器評估。在相關基準評估中，Kolors展現出極具競爭力的表現，達到業界領先標準。

人工評估

對於人類評估，我們邀請了50位影像專家對不同模型產生的結果進行比較評估。專家們根據三個標準對生成的圖像進行評分：視覺吸引力、文字忠實度和整體滿意度。在評估中，Kolors 獲得了最高的整體滿意度得分，並且與其他型號相比，其視覺吸引力顯著領先。

模型	平均整體滿意度	平均視覺吸引力	平均文字忠實度
Adobe-螢火蟲	3.03	3.46	3.84
穩定擴散3	3.26	3.50	4.20
達爾-E 3	3.32	3.54	4.22
中途-v5	3.32	3.68	4.02
Playground-v2.5	3.37	3.73	4.04
中途-v6	3.58	3.92	4.18
科勒斯	3.59	3.99	4.17

所有模型結果均使用 2024 年 4 月產品版本進行測試

機器評估

我們使用 KolorsPrompts 上的 MPS（多維度人類偏好評分）作為機器評估的評估指標。 Kolors 獲得了最高的 MPS 分數，這與人類評估的結果一致。

型號	總體MPS
Adobe-螢火蟲	8.5
穩定擴散3	8.9
達爾-E 3	9.0
中途-v5	9.4
Playground-v2.5	9.8
中途-v6	10.2
科勒斯	10.3

更多實驗結果和詳細信息，請參閱我們的技術報告。

？視覺化

高品質肖像

中國元素一代

複雜的語意理解

文字渲染

上述可視化案例提示可以在此處存取。

?️ 用法

要求

Python 3.8 或更高版本
PyTorch 1.13.1 或更高版本
變形金剛 4.26.1 或更高版本
建議：CUDA 11.7 或更高版本

存儲庫克隆和依賴項安裝

apt-get install git-lfs
git clone https://github.com/Kwai-Kolors/Kolors
cd Kolors
conda create --name kolors python=3.8
conda activate kolors
pip install -r requirements.txt
python3 setup.py install

權重下載（連結）：

huggingface-cli download --resume-download Kwai-Kolors/Kolors --local-dir weights/Kolors

或者

git lfs clone https://huggingface.co/Kwai-Kolors/Kolors weights/Kolors

推理：

python3 scripts/sample.py "一张瓢虫的照片，微距，变焦，高质量，电影，拿着一个牌子，写着“可图” "
# The image will be saved to "scripts/outputs/sample_text.jpg"

網頁示範：

python3 scripts/sampleui.py

與擴散器一起使用

確保您升級到擴散器的最新版本（0.30.0.dev0）：

 git clone https://github.com/huggingface/diffusers
cd diffusers
python3 setup.py install

筆記：

管道預設使用EulerDiscreteScheduler 。我們建議使用此調度程序， guidance scale=5.0和num_inference_steps=50 。
該管道還支援EDMDPMSolverMultistepScheduler 。 guidance scale=5.0和num_inference_steps=25是這個調度程式的一個很好的預設值。
除了文字轉圖像之外， KolorsImg2ImgPipeline還支援圖像到圖像。

然後你可以運行：

 import torch
from diffusers import KolorsPipeline
pipe = KolorsPipeline . from_pretrained (
    "Kwai-Kolors/Kolors-diffusers" , 
    torch_dtype = torch . float16 , 
    variant = "fp16"
). to ( "cuda" )
prompt = '一张瓢虫的照片，微距，变焦，高质量，电影，拿着一个牌子，写着"可图"'
image = pipe (
    prompt = prompt ,
    negative_prompt = "" ,
    guidance_scale = 5.0 ,
    num_inference_steps = 50 ,
    generator = torch . Generator ( pipe . device ). manual_seed ( 66 ),
). images [ 0 ]
image . show ()

IP-適配器-Plus

我們提供 IP-Adapter-Plus 權重和推理代碼，詳細資訊請參閱 ipadapter。

 # Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-IP-Adapter-Plus --local-dir weights/Kolors-IP-Adapter-Plus

 # Inference：
python3 ipadapter/sample_ipadapter_plus.py ./ipadapter/asset/test_ip.jpg "穿着黑色T恤衫，上面中文绿色大字写着“可图” "

python3 ipadapter/sample_ipadapter_plus.py ./ipadapter/asset/test_ip2.png "一只可爱的小狗在奔跑"

# The image will be saved to "scripts/outputs/"

控制網

我們提供了三個 ControlNet 權重和推理程式碼，詳細資訊請參閱 controlnet。

 # Weights download

# Canny - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Canny --local-dir weights/Kolors-ControlNet-Canny

# Depth - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Depth --local-dir weights/Kolors-ControlNet-Depth

# Pose - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Pose --local-dir weights/Kolors-ControlNet-Pose

如果您打算使用深度估計網絡，請確保下載其相應的模型權重。

 huggingface-cli download lllyasviel/Annotators ./dpt_hybrid-midas-501f0c75.pt --local-dir ./controlnet/annotator/ckpts

使用 DWPose，您可以利用姿勢估計網路。請下載Pose模型dw-ll_ucoco_384.onnx（baidu、google）和Det模型yolox_l.onnx（baidu、google）。然後請將它們放入controlnet/annotator/ckpts/中。

 # Inference：

python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_1.png 一个漂亮的女孩，高品质，超清晰，色彩鲜艳，超高分辨率，最佳品质，8k，高清，4K Canny

python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_2.png 新海诚风格，丰富的色彩，穿着绿色衬衫的女人站在田野里，唯美风景，清新明亮，斑驳的光影，最好的质量，超细节，8K画质 Depth

python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_3.png 一位穿着紫色泡泡袖连衣裙、戴着皇冠和白色蕾丝手套的女孩双手托脸，高品质，超清晰，色彩鲜艳，超高分辨率，最佳品质，8k，高清，4K Pose

# The image will be saved to "controlnet/outputs/"

修復

我們提供修復權重和推理代碼，詳細資訊請參閱修復。

 # Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-Inpainting --local-dir weights/Kolors-Inpainting

 # Inference：
python3 inpainting/sample_inpainting.py ./inpainting/asset/3.png ./inpainting/asset/3_mask.png 穿着美少女战士的衣服，一件类似于水手服风格的衣服，包括一个白色紧身上衣，前胸搭配一个大大的红色蝴蝶结。衣服的领子部分呈蓝色，并且有白色条纹。她还穿着一条蓝色百褶裙，超高清，辛烷渲染，高级质感，32k，高分辨率，最好的质量，超级细节，景深

python3 inpainting/sample_inpainting.py ./inpainting/asset/4.png ./inpainting/asset/4_mask.png 穿着钢铁侠的衣服，高科技盔甲，主要颜色为红色和金色，并且有一些银色装饰。胸前有一个亮起的圆形反应堆装置，充满了未来科技感。超清晰，高质量，超逼真，高分辨率，最好的质量，超级细节，景深

# The image will be saved to "scripts/outputs/"

IP 適配器-FaceID-Plus

我們提供IP-Adapter-FaceID-Plus權重和推理代碼，詳細資訊請參閱ipadapter_FaceID。

 # Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-IP-Adapter-FaceID-Plus --local-dir weights/Kolors-IP-Adapter-FaceID-Plus

 # Inference：
python ipadapter_FaceID/sample_ipadapter_faceid_plus.py ./ipadapter_FaceID/assets/image1.png "穿着晚礼服，在星光下的晚宴场景中，烛光闪闪，整个场景洋溢着浪漫而奢华的氛围"

python ipadapter_FaceID/sample_ipadapter_faceid_plus.py ./ipadapter_FaceID/assets/image2.png "西部牛仔，牛仔帽，荒野大镖客，背景是西部小镇，仙人掌，,日落余晖, 暖色调, 使用XT4胶片拍摄, 噪点, 晕影, 柯达胶卷，复古"

# The image will be saved to "scripts/outputs/"

Dreambooth-LoRA

我們提供 LoRA 訓練和推理代碼，詳細資訊請參閱 Dreambooth-LoRA。

 # Training:
sh train.sh

 # Inference：
python infer_dreambooth.py " ktxl狗在草地上跑"

？授權、引用和致謝

執照

Kolors 權重對學術研究完全開放。如果您打算在授權條款和條件下將Kolors模型或其衍生性商品用於商業目的，請將問卷發送至[email protected]以向授權人註冊。如果被授權人提供的或為被授權人提供的所有產品或服務的上一日曆月月活躍用戶數不超過3億，則您在授權人註冊將被視為已獲得相應的營業執照；如果被授權人提供的或為被授權人提供的所有產品或服務的每月活躍使用者數在上一個日曆月超過 3 億，您必須向授權人請求許可，授權人可自行決定向您授予該許可，且您無權行使本協議項下的任何權利，除非或直到我們明確授予您此類權利。

我們開源 Kolors，與開源社群合作促進大型文字到圖像模型的開發。該專案的程式碼在 Apache-2.0 許可下開源。我們誠摯地敦促所有開發者和使用者嚴格遵守開源許可協議，避免將開源模型、程式碼及其衍生品用於任何危害國家和社會的用途或任何未經評估和註冊的服務為了安全。請注意，儘管我們盡最大努力確保訓練期間資料的合規性、準確性和安全性，但由於生成內容的多樣性和可組合性以及影響模型的機率隨機性，我們無法保證輸出內容的準確性和安全性，並且該模型很容易產生誤導。對於因使用開源模型和程式碼而導致模型被誤導、濫用、誤用或不當利用而產生的任何資料安全問題、輿情風險以及模型的風險和責任，本專案不承擔任何法律責任。

引文

如果您發現我們的工作有幫助，請引用它！

 @article{kolors,
  title={Kolors: Effective Training of Diffusion Model for Photorealistic Text-to-Image Synthesis},
  author={Kolors Team},
  journal={arXiv preprint},
  year={2024}
}