영어 | 중국어
2024.09.01 Kolors를 기반으로 한 가상 체험 데모 Kolors-Virtual-Try-On 출시! Kolors-Virtual-Try-On, WeChat 게시물을 즐겨보세요.
2024.08.06 포즈컨트롤넷 출시! 자세한 내용은 ControlNet(Pose)을 확인해주세요.
2024.08.01 Kolors-Dreambooth-LoRA 훈련 및 추론 코드 출시! 자세한 내용은 Dreambooth-LoRA를 확인해주세요.
2024.07.31 Kolors-IP-Adapter-FaceID-Plus 가중치 및 추론코드 출시! 자세한 내용은 IP-Adapter-FaceID-Plus를 확인하세요.
2024.07.26 ControlNet, Inpainting Model 출시! 자세한 내용은 ControlNet(Canny, Depth) 및 Inpainting Model을 확인하시기 바랍니다.
2024.07.17 Kolors-IP-Adapter-Plus 가중치 및 추론 코드 출시! 자세한 내용은 IP-Adapter-Plus를 확인하세요.
2024.07.12 ? 이제 Diffusers 에서 Kolors를 사용할 수 있습니다! 자세한 내용은 kolors-diffusers 또는 아래 예시를 확인하세요! 기술 지원을 제공한 Diffusers 팀에 감사드립니다.
2024.07.10 ? Kolors는 ModelScope를 지원합니다.
2024.07.09 ? Kolors는 ComfyUI를 지원합니다. 훌륭한 작업을 해주신 @kijai에게 감사드립니다.
2024.07.06 수십억 개의 텍스트-이미지 쌍을 학습한 대규모 텍스트-이미지 모델 Kolors를 출시합니다. 이 모델은 중국어와 영어 모두를 지원하며 256개 토큰의 컨텍스트 길이를 지원합니다. 자세한 기술 내용은 기술 보고서를 참조하세요.
2024.07.03 ? Kolors는 FlagEval Multimodal Text-to-Image Leaderboard에서 2위를 차지했으며, 특히 Kolors가 1위를 차지한 중국어 및 영어 주관적 품질 평가에서 탁월한 성과를 거두었습니다.
2024.07.02 ? 축하해요! 제어 가능한 비디오 생성에 관한 우리의 논문인 DragAnything: 엔터티 표현을 사용한 모든 것에 대한 모션 제어가 ECCV 2024에서 승인되었습니다.
2024.02.08 ? 축하해요! 생성 모델 평가에 관한 우리의 논문인 텍스트-이미지 생성을 위한 다차원 인간 선호도 학습이 CVPR 2024에 승인되었습니다.
Kolors는 Kuaishou Kolors 팀이 개발한 잠재 확산을 기반으로 한 대규모 텍스트-이미지 생성 모델입니다. 수십억 개의 텍스트-이미지 쌍을 학습한 Kolors는 시각적 품질, 복잡한 의미 정확도, 중국어와 영어 문자 모두에 대한 텍스트 렌더링 측면에서 오픈 소스 및 비공개 소스 모델에 비해 상당한 이점을 보여줍니다. 또한 Kolors는 중국어와 영어 입력을 모두 지원하여 중국어 관련 콘텐츠를 이해하고 생성하는 데 있어 강력한 성능을 보여줍니다. 자세한 내용은 이 기술 보고서를 참조하세요.
우리는 Kolors를 다른 최첨단 개방형 모델 및 비공개 소스 모델과 비교하기 위해 KolorsPrompts라는 포괄적인 텍스트-이미지 평가 데이터세트를 수집했습니다. KolorsPrompts에는 14개 카테고리와 12개 평가 차원에 걸쳐 1,000개 이상의 프롬프트가 포함되어 있습니다. 평가 프로세스에는 인간 평가와 기계 평가가 모두 포함됩니다. 관련 벤치마크 평가에서 Kolors는 업계 최고의 표준을 달성하며 매우 경쟁력 있는 성능을 보여주었습니다.
인간 평가를 위해 우리는 50명의 이미지 전문가를 초청하여 다양한 모델에서 생성된 결과를 비교 평가했습니다. 전문가들은 시각적 호소력, 텍스트 충실도, 전반적인 만족도라는 세 가지 기준에 따라 생성된 이미지를 평가했습니다. 이번 평가에서 컬러스는 종합 만족도가 가장 높았으며, 다른 모델에 비해 시각적 매력도에서도 월등히 앞섰다.
모델 | 평균 전반적인 만족도 | 평균적인 시각적 매력 | 평균 텍스트 충실도 |
---|---|---|---|
Adobe-Firefly | 3.03 | 3.46 | 3.84 |
안정확산 3 | 3.26 | 3.50 | 4.20 |
DALL-E 3 | 3.32 | 3.54 | 4.22 |
Midjourney-v5 | 3.32 | 3.68 | 4.02 |
플레이그라운드-v2.5 | 3.37 | 3.73 | 4.04 |
Midjourney-v6 | 3.58 | 3.92 | 4.18 |
컬러스 | 3.59 | 3.99 | 4.17 |
모든 모델 결과는 2024년 4월 제품 버전으로 테스트되었습니다.
우리는 기계 평가를 위한 평가 지표로 KolorsPrompts의 MPS(다차원 인간 선호 점수)를 사용했습니다. Kolors는 인간 평가 결과와 일치하는 가장 높은 MPS 점수를 획득했습니다.
모델 | 전체 MPS |
---|---|
Adobe-Firefly | 8.5 |
안정확산 3 | 8.9 |
DALL-E 3 | 9.0 |
Midjourney-v5 | 9.4 |
플레이그라운드-v2.5 | 9.8 |
Midjourney-v6 | 10.2 |
컬러스 | 10.3 |
더 많은 실험 결과와 자세한 내용은 당사의 기술 보고서를 참조하세요.
위에서 언급한 시각화된 사례 프롬프트는 여기에서 액세스할 수 있습니다.
apt-get install git-lfs
git clone https://github.com/Kwai-Kolors/Kolors
cd Kolors
conda create --name kolors python=3.8
conda activate kolors
pip install -r requirements.txt
python3 setup.py install
huggingface-cli download --resume-download Kwai-Kolors/Kolors --local-dir weights/Kolors
또는
git lfs clone https://huggingface.co/Kwai-Kolors/Kolors weights/Kolors
python3 scripts/sample.py "一张瓢虫的照片,微距,变焦,高质量,电影,拿着一个牌子,写着“可图” "
# The image will be saved to "scripts/outputs/sample_text.jpg"
python3 scripts/sampleui.py
디퓨저를 최신 버전(0.30.0.dev0)으로 업그레이드하세요:
git clone https://github.com/huggingface/diffusers
cd diffusers
python3 setup.py install
참고:
EulerDiscreteScheduler
를 사용합니다. guidance scale=5.0
및 num_inference_steps=50
지침에 따라 이 스케줄러를 사용하는 것이 좋습니다.EDMDPMSolverMultistepScheduler
도 지원합니다. guidance scale=5.0
및 num_inference_steps=25
는 이 스케줄러에 적합한 기본값입니다.KolorsImg2ImgPipeline
Text-to-Image 외에도 Image-to-Image도 지원합니다.그런 다음 다음을 실행할 수 있습니다.
import torch
from diffusers import KolorsPipeline
pipe = KolorsPipeline . from_pretrained (
"Kwai-Kolors/Kolors-diffusers" ,
torch_dtype = torch . float16 ,
variant = "fp16"
). to ( "cuda" )
prompt = '一张瓢虫的照片,微距,变焦,高质量,电影,拿着一个牌子,写着"可图"'
image = pipe (
prompt = prompt ,
negative_prompt = "" ,
guidance_scale = 5.0 ,
num_inference_steps = 50 ,
generator = torch . Generator ( pipe . device ). manual_seed ( 66 ),
). images [ 0 ]
image . show ()
우리는 ipadapter에 자세히 설명된 IP-Adapter-Plus 가중치와 추론 코드를 제공합니다.
# Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-IP-Adapter-Plus --local-dir weights/Kolors-IP-Adapter-Plus
# Inference:
python3 ipadapter/sample_ipadapter_plus.py ./ipadapter/asset/test_ip.jpg "穿着黑色T恤衫,上面中文绿色大字写着“可图” "
python3 ipadapter/sample_ipadapter_plus.py ./ipadapter/asset/test_ip2.png "一只可爱的小狗在奔跑"
# The image will be saved to "scripts/outputs/"
우리는 ControlNet에 자세히 설명된 세 가지 ControlNet 가중치와 추론 코드를 제공합니다.
# Weights download
# Canny - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Canny --local-dir weights/Kolors-ControlNet-Canny
# Depth - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Depth --local-dir weights/Kolors-ControlNet-Depth
# Pose - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Pose --local-dir weights/Kolors-ControlNet-Pose
깊이 추정 네트워크를 활용하려면 해당 모델 가중치를 반드시 다운로드하세요.
huggingface-cli download lllyasviel/Annotators ./dpt_hybrid-midas-501f0c75.pt --local-dir ./controlnet/annotator/ckpts
DWPose 덕분에 포즈 추정 네트워크를 활용할 수 있습니다. 포즈 모델 dw-ll_ucoco_384.onnx(baidu, google) 및 Det 모델 yolox_l.onnx(baidu, google)를 다운로드하세요. 그런 다음 controlnet/annotator/ckpts/
에 넣으십시오.
# Inference:
python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_1.png 一个漂亮的女孩,高品质,超清晰,色彩鲜艳,超高分辨率,最佳品质,8k,高清,4K Canny
python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_2.png 新海诚风格,丰富的色彩,穿着绿色衬衫的女人站在田野里,唯美风景,清新明亮,斑驳的光影,最好的质量,超细节,8K画质 Depth
python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_3.png 一位穿着紫色泡泡袖连衣裙、戴着皇冠和白色蕾丝手套的女孩双手托脸,高品质,超清晰,色彩鲜艳,超高分辨率,最佳品质,8k,高清,4K Pose
# The image will be saved to "controlnet/outputs/"
인페인팅에 자세히 설명된 인페인팅 가중치와 추론 코드를 제공합니다.
# Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-Inpainting --local-dir weights/Kolors-Inpainting
# Inference:
python3 inpainting/sample_inpainting.py ./inpainting/asset/3.png ./inpainting/asset/3_mask.png 穿着美少女战士的衣服,一件类似于水手服风格的衣服,包括一个白色紧身上衣,前胸搭配一个大大的红色蝴蝶结。衣服的领子部分呈蓝色,并且有白色条纹。她还穿着一条蓝色百褶裙,超高清,辛烷渲染,高级质感,32k,高分辨率,最好的质量,超级细节,景深
python3 inpainting/sample_inpainting.py ./inpainting/asset/4.png ./inpainting/asset/4_mask.png 穿着钢铁侠的衣服,高科技盔甲,主要颜色为红色和金色,并且有一些银色装饰。胸前有一个亮起的圆形反应堆装置,充满了未来科技感。超清晰,高质量,超逼真,高分辨率,最好的质量,超级细节,景深
# The image will be saved to "scripts/outputs/"
ipadapter_FaceID에 자세히 설명된 IP-Adapter-FaceID-Plus 가중치와 추론 코드를 제공합니다.
# Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-IP-Adapter-FaceID-Plus --local-dir weights/Kolors-IP-Adapter-FaceID-Plus
# Inference:
python ipadapter_FaceID/sample_ipadapter_faceid_plus.py ./ipadapter_FaceID/assets/image1.png "穿着晚礼服,在星光下的晚宴场景中,烛光闪闪,整个场景洋溢着浪漫而奢华的氛围"
python ipadapter_FaceID/sample_ipadapter_faceid_plus.py ./ipadapter_FaceID/assets/image2.png "西部牛仔,牛仔帽,荒野大镖客,背景是西部小镇,仙人掌,,日落余晖, 暖色调, 使用XT4胶片拍摄, 噪点, 晕影, 柯达胶卷,复古"
# The image will be saved to "scripts/outputs/"
Dreambooth-LoRA에 자세히 설명된 LoRA 교육 및 추론 코드를 제공합니다.
# Training:
sh train.sh
# Inference:
python infer_dreambooth.py " ktxl狗在草地上跑"
Kolors 가중치는 학술 연구에 완전히 개방되어 있습니다. 라이센스 이용 약관에 따라 Kolors 모델 또는 그 파생물을 상업적 목적으로 사용하려는 경우 [email protected]으로 설문지를 보내 라이센스 제공자에게 등록하십시오. 라이센스 사용자에 의해 또는 라이센스 사용자를 위해 제공되는 모든 제품 또는 서비스의 월간 활성 사용자가 이전 달의 월간 활성 사용자가 3억 명을 초과하지 않는 경우 라이센스 제공자에 대한 귀하의 등록은 해당 비즈니스 라이센스를 취득한 것으로 간주됩니다. 라이센스 사용자에 의해 또는 라이센스 사용자를 위해 제공되는 모든 제품 또는 서비스의 월간 활성 사용자가 이전 달의 월간 활성 사용자가 3억 명을 초과하는 경우 라이센스 제공자가 단독 재량으로 귀하에게 부여할 수 있는 라이센스를 라이센스 제공자에게 요청해야 합니다. , 그리고 당사가 귀하에게 그러한 권리를 명시적으로 부여하지 않는 한 귀하는 본 계약에 따른 어떠한 권리도 행사할 권한이 없습니다.
우리는 오픈 소스 커뮤니티와 협력하여 대규모 텍스트-이미지 모델 개발을 촉진하기 위해 Kolors를 오픈 소스로 제공합니다. 이 프로젝트의 코드는 Apache-2.0 라이선스에 따라 오픈 소스로 제공됩니다. 우리는 모든 개발자와 사용자가 오픈 소스 라이센스를 엄격히 준수하고 국가와 사회에 해를 끼칠 수 있는 목적으로 또는 평가 및 등록되지 않은 서비스에 오픈 소스 모델, 코드 및 그 파생물을 사용하지 않을 것을 진심으로 촉구합니다. 안전을 위해. 학습 중 데이터의 규정 준수, 정확성 및 안전성을 보장하기 위한 최선의 노력에도 불구하고 생성된 콘텐츠의 다양성 및 결합 가능성과 모델에 영향을 미치는 확률적 무작위성으로 인해 출력 콘텐츠의 정확성과 안전성을 보장할 수 없습니다. 모델은 오해의 소지가 있습니다. 본 프로젝트는 오픈 소스 모델 및 코드 사용으로 인해 모델이 오도, 남용, 오용 또는 부적절하게 활용되어 발생하는 데이터 보안 문제, 여론 위험 또는 위험과 책임에 대해 어떠한 법적 책임도 지지 않습니다.
우리의 작업이 도움이 되었다면 인용해 주세요!
@article{kolors,
title={Kolors: Effective Training of Diffusion Model for Photorealistic Text-to-Image Synthesis},
author={Kolors Team},
journal={arXiv preprint},
year={2024}
}
당사 R&D팀과 제품팀에 메시지를 남기고 싶으시다면 WeChat 그룹에 가입해 주세요. 이메일([email protected])을 통해 문의하실 수도 있습니다.