Download Kolors - Download do código-fonte Kolors

Inglês ｜中文

Kolors: Treinamento Eficaz de Modelo de Difusão para Síntese Fotorrealística de Texto para Imagem

Conteúdo

? Notícias
? Plano de código aberto
? Introdução
? Avaliação ??
? Visualização
?️ Uso
? Licença, Citação e Agradecimentos

? Notícias

2024.09.01 Kolors-Virtual-Try-On, uma demonstração virtual baseada em Kolors é lançada! Divirta-se experimentando Kolors-Virtual-Try-On, postagem WeChat.
2024.08.06 Pose ControlNet é lançado! Por favor, verifique ControlNet(Pose) para mais detalhes.
2024.08.01 O código de treinamento e inferência Kolors-Dreambooth-LoRA foi lançado! Por favor, verifique Dreambooth-LoRA para mais detalhes.
2024.07.31 Os pesos e o código de inferência Kolors-IP-Adapter-FaceID-Plus são lançados! Por favor, verifique IP-Adapter-FaceID-Plus para mais detalhes.
2024.07.26 ControlNet e Inpainting Model são lançados! Verifique ControlNet (Canny, Depth) e Inpainting Model para obter mais detalhes.
2024.07.17 Os pesos e o código de inferência Kolors-IP-Adapter-Plus são lançados! Por favor, verifique IP-Adapter-Plus para mais detalhes.
2024.07.12? Kolors agora está disponível em Difusores ! Por favor, verifique os difusores kolors ou o exemplo abaixo para obter detalhes! Obrigado à equipe de Difusores pelo suporte técnico.
2024.07.10? Kolors suporta ModelScope.
2024.07.09? Kolors suporta ComfyUI. Obrigado a @kijai pelo seu excelente trabalho.
2024.07.06 Lançamos Kolors , um grande modelo de texto para imagem treinado em bilhões de pares de texto-imagem. Este modelo é bilíngue em chinês e inglês e suporta um comprimento de contexto de 256 tokens. Para mais detalhes técnicos, consulte o relatório técnico.
2024.07.03? Kolors conquistou o segundo lugar no ranking multimodal de texto para imagem FlagEval, destacando-se principalmente na avaliação de qualidade subjetiva em chinês e inglês, onde Kolors ficou em primeiro lugar.
2024.07.02? Parabéns! Nosso artigo sobre geração de vídeo controlável, DragAnything: Motion Control for Anything using Entity Representation, foi aceito pelo ECCV 2024.
2024.02.08? Parabéns! Nosso artigo sobre avaliação de modelo generativo, Learning Multi-dimensional Human Preference for Text-to-Image Generation, foi aceito pelo CVPR 2024.

? Plano de código aberto

? Introdução

Kolors é um modelo de geração de texto para imagem em grande escala baseado em difusão latente, desenvolvido pela equipe Kuaishou Kolors. Treinado em bilhões de pares de texto-imagem, Kolors apresenta vantagens significativas sobre modelos de código aberto e de código fechado em qualidade visual, precisão semântica complexa e renderização de texto para caracteres chineses e ingleses. Além disso, a Kolors suporta contribuições em chinês e inglês, demonstrando um forte desempenho na compreensão e geração de conteúdo específico em chinês. Para mais detalhes, consulte este relatório técnico.

? Avaliação

Coletamos um conjunto abrangente de dados de avaliação de texto para imagem chamado KolorsPrompts para comparar Kolors com outros modelos abertos e modelos de código fechado de última geração. KolorsPrompts inclui mais de 1.000 prompts em 14 categorias e 12 dimensões de avaliação. O processo de avaliação incorpora avaliações humanas e de máquinas. Em avaliações de benchmark relevantes, a Kolors demonstrou um desempenho altamente competitivo, alcançando padrões líderes do setor.

Avaliação Humana

Para a avaliação humana, convidamos 50 especialistas em imagens para realizar avaliações comparativas dos resultados gerados por diferentes modelos. Os especialistas avaliaram as imagens geradas com base em três critérios: apelo visual, fidelidade do texto e satisfação geral. Na avaliação, a Kolors obteve a maior pontuação geral de satisfação e liderou significativamente em apelo visual em comparação com outros modelos.

Modelo	Satisfação Geral Média	Apelo visual médio	Fidelidade média do texto
Adobe Firefly	3.03	3,46	3,84
Difusão Estável 3	3.26	3,50	4h20
DALL-E 3	3.32	3,54	4.22
Meio da jornada-v5	3.32	3,68	4.02
Parque infantil-v2.5	3,37	3,73	4.04
Meio da jornada-v6	3,58	3,92	4.18
Cores	3,59	3,99	4.17

Todos os resultados do modelo são testados com as versões do produto de abril de 2024

Avaliação de Máquina

Usamos MPS (Multi-dimensional Human Preference Score) no KolorsPrompts como métrica de avaliação para avaliação da máquina. Kolors alcançou a pontuação MPS mais alta, o que é consistente com os resultados das avaliações humanas.

Modelos	MPS geral
Adobe Firefly	8,5
Difusão Estável 3	8,9
DALL-E 3	9,0
Meio da jornada-v5	9.4
Parque infantil-v2.5	9,8
Meio da jornada-v6	10.2
Cores	10.3

Para obter mais resultados experimentais e detalhes, consulte nosso relatório técnico.

? Visualização

Retrato de alta qualidade

Geração de Elementos Chineses

Compreensão Semântica Complexa

Renderização de texto

Os prompts de caso visualizados mencionados acima podem ser acessados aqui.

?️ Uso

Requisitos

Python 3.8 ou posterior
PyTorch 1.13.1 ou posterior
Transformadores 4.26.1 ou posterior
Recomendado: CUDA 11.7 ou posterior

Clonagem de repositório e instalação de dependências

apt-get install git-lfs
git clone https://github.com/Kwai-Kolors/Kolors
cd Kolors
conda create --name kolors python=3.8
conda activate kolors
pip install -r requirements.txt
python3 setup.py install

Download de pesos（link）：

huggingface-cli download --resume-download Kwai-Kolors/Kolors --local-dir weights/Kolors

git lfs clone https://huggingface.co/Kwai-Kolors/Kolors weights/Kolors

Inferência:

python3 scripts/sample.py "一张瓢虫的照片，微距，变焦，高质量，电影，拿着一个牌子，写着“可图” "
# The image will be saved to "scripts/outputs/sample_text.jpg"

Demonstração na Web:

python3 scripts/sampleui.py

Usando com difusores

Certifique-se de atualizar para a versão mais recente (0.30.0.dev0) dos difusores:

 git clone https://github.com/huggingface/diffusers
cd diffusers
python3 setup.py install

Notas:

O pipeline usa o EulerDiscreteScheduler por padrão. Recomendamos usar este agendador com guidance scale=5.0 e num_inference_steps=50 .
O pipeline também dá suporte ao EDMDPMSolverMultistepScheduler . guidance scale=5.0 e num_inference_steps=25 é um bom padrão para este agendador.
Além de texto para imagem, KolorsImg2ImgPipeline também suporta imagem para imagem.

E então você pode executar:

 import torch
from diffusers import KolorsPipeline
pipe = KolorsPipeline . from_pretrained (
    "Kwai-Kolors/Kolors-diffusers" , 
    torch_dtype = torch . float16 , 
    variant = "fp16"
). to ( "cuda" )
prompt = '一张瓢虫的照片，微距，变焦，高质量，电影，拿着一个牌子，写着"可图"'
image = pipe (
    prompt = prompt ,
    negative_prompt = "" ,
    guidance_scale = 5.0 ,
    num_inference_steps = 50 ,
    generator = torch . Generator ( pipe . device ). manual_seed ( 66 ),
). images [ 0 ]
image . show ()

Adaptador IP-Plus

Fornecemos pesos e código de inferência do IP-Adapter-Plus, detalhados no ipadapter.

 # Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-IP-Adapter-Plus --local-dir weights/Kolors-IP-Adapter-Plus

 # Inference：
python3 ipadapter/sample_ipadapter_plus.py ./ipadapter/asset/test_ip.jpg "穿着黑色T恤衫，上面中文绿色大字写着“可图” "

python3 ipadapter/sample_ipadapter_plus.py ./ipadapter/asset/test_ip2.png "一只可爱的小狗在奔跑"

# The image will be saved to "scripts/outputs/"

ControlNet

Fornecemos três pesos ControlNet e código de inferência, detalhados no controlnet.

 # Weights download

# Canny - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Canny --local-dir weights/Kolors-ControlNet-Canny

# Depth - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Depth --local-dir weights/Kolors-ControlNet-Depth

# Pose - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Pose --local-dir weights/Kolors-ControlNet-Pose

Se você pretende utilizar a rede de estimativa de profundidade, certifique-se de baixar os pesos do modelo correspondentes.

 huggingface-cli download lllyasviel/Annotators ./dpt_hybrid-midas-501f0c75.pt --local-dir ./controlnet/annotator/ckpts

Graças ao DWPose, você pode utilizar a rede de estimativa de pose. Faça download do modelo Pose dw-ll_ucoco_384.onnx (baidu, google) e do modelo Det yolox_l.onnx (baidu, google). Então coloque-os em controlnet/annotator/ckpts/ .

 # Inference：

python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_1.png 一个漂亮的女孩，高品质，超清晰，色彩鲜艳，超高分辨率，最佳品质，8k，高清，4K Canny

python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_2.png 新海诚风格，丰富的色彩，穿着绿色衬衫的女人站在田野里，唯美风景，清新明亮，斑驳的光影，最好的质量，超细节，8K画质 Depth

python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_3.png 一位穿着紫色泡泡袖连衣裙、戴着皇冠和白色蕾丝手套的女孩双手托脸，高品质，超清晰，色彩鲜艳，超高分辨率，最佳品质，8k，高清，4K Pose

# The image will be saved to "controlnet/outputs/"

Pintura

Fornecemos pesos de pintura interna e código de inferência, detalhados na pintura interna.

 # Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-Inpainting --local-dir weights/Kolors-Inpainting

 # Inference：
python3 inpainting/sample_inpainting.py ./inpainting/asset/3.png ./inpainting/asset/3_mask.png 穿着美少女战士的衣服，一件类似于水手服风格的衣服，包括一个白色紧身上衣，前胸搭配一个大大的红色蝴蝶结。衣服的领子部分呈蓝色，并且有白色条纹。她还穿着一条蓝色百褶裙，超高清，辛烷渲染，高级质感，32k，高分辨率，最好的质量，超级细节，景深

python3 inpainting/sample_inpainting.py ./inpainting/asset/4.png ./inpainting/asset/4_mask.png 穿着钢铁侠的衣服，高科技盔甲，主要颜色为红色和金色，并且有一些银色装饰。胸前有一个亮起的圆形反应堆装置，充满了未来科技感。超清晰，高质量，超逼真，高分辨率，最好的质量，超级细节，景深

# The image will be saved to "scripts/outputs/"

Adaptador IP-FaceID-Plus

Fornecemos pesos e código de inferência do IP-Adapter-FaceID-Plus, detalhados no ipadapter_FaceID.

 # Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-IP-Adapter-FaceID-Plus --local-dir weights/Kolors-IP-Adapter-FaceID-Plus

 # Inference：
python ipadapter_FaceID/sample_ipadapter_faceid_plus.py ./ipadapter_FaceID/assets/image1.png "穿着晚礼服，在星光下的晚宴场景中，烛光闪闪，整个场景洋溢着浪漫而奢华的氛围"

python ipadapter_FaceID/sample_ipadapter_faceid_plus.py ./ipadapter_FaceID/assets/image2.png "西部牛仔，牛仔帽，荒野大镖客，背景是西部小镇，仙人掌，,日落余晖, 暖色调, 使用XT4胶片拍摄, 噪点, 晕影, 柯达胶卷，复古"

# The image will be saved to "scripts/outputs/"

Dreambooth-LoRA

Fornecemos treinamento LoRA e código de inferência, detalhados no Dreambooth-LoRA.

 # Training:
sh train.sh

 # Inference：
python infer_dreambooth.py " ktxl狗在草地上跑"

? Licença, Citação e Agradecimentos

Licença

Os pesos Kolors estão totalmente abertos à pesquisa acadêmica. Se você pretende usar o modelo Kolors ou seus derivados para fins comerciais sob os termos e condições de licenciamento, envie o questionário para [email protected] para registrar-se junto ao licenciante. Se os usuários ativos mensais de todos os produtos ou serviços disponibilizados por ou para o Licenciado não excederem 300 milhões de usuários ativos mensais no mês anterior, seu registro junto ao Licenciador será considerado como tendo obtido a licença comercial correspondente; Se o número de usuários ativos mensais de todos os produtos ou serviços disponibilizados por ou para o Licenciado for superior a 300 milhões de usuários ativos mensais no mês anterior, Você deverá solicitar uma licença ao Licenciante, que o Licenciante poderá conceder a Você a seu exclusivo critério. , e Você não está autorizado a exercer nenhum dos direitos deste Contrato, a menos ou até que Nós lhe concedamos expressamente tais direitos.

Abrimos o Kolors para promover o desenvolvimento de grandes modelos de texto para imagem em colaboração com a comunidade de código aberto. O código deste projeto é de código aberto sob a licença Apache-2.0. Pedimos sinceramente a todos os desenvolvedores e usuários que cumpram rigorosamente a licença de código aberto, evitando o uso do modelo de código aberto, código e seus derivados para quaisquer fins que possam prejudicar o país e a sociedade ou para quaisquer serviços não avaliados e registrados para segurança. Observe que, apesar de nossos melhores esforços para garantir a conformidade, precisão e segurança dos dados durante o treinamento, devido à diversidade e combinabilidade do conteúdo gerado e à aleatoriedade probabilística que afeta o modelo, não podemos garantir a precisão e segurança do conteúdo de saída, e o modelo é suscetível de ser enganador. Este projeto não assume qualquer responsabilidade legal por quaisquer questões de segurança de dados, riscos de opinião pública ou riscos e responsabilidades decorrentes do modelo ser enganado, abusado, mal utilizado ou utilizado indevidamente devido ao uso do modelo e código de código aberto.

Citação

Se você achar nosso trabalho útil, cite-o!

 @article{kolors,
  title={Kolors: Effective Training of Diffusion Model for Photorealistic Text-to-Image Synthesis},
  author={Kolors Team},
  journal={arXiv preprint},
  year={2024}
}

Agradecimentos

Obrigado aos Difusores por fornecer a base de código.
Obrigado ao ChatGLM3 por fornecer o poderoso modelo do idioma chinês.

Contate-nos

Se você quiser deixar uma mensagem para nossa equipe de P&D e equipe de produto, sinta-se à vontade para entrar em nosso grupo WeChat. Você também pode entrar em contato conosco por e-mail ([email protected]).

Expandir