Descargar Kolors - Descarga del código fuente Kolors

Inglés ｜中文

Kolors: entrenamiento eficaz del modelo de difusión para la síntesis fotorrealista de texto a imagen

Contenido

? Noticias
? Plan de código abierto
? Introducción
? Evaluación ??
? Visualización
?️ Uso
? Licencia, citación y reconocimientos

? Noticias

2024.09.01 ¡Se lanza Kolors-Virtual-Try-On, una demostración de prueba virtual basada en Kolors! Disfrute probándose Kolors-Virtual-Try-On, publicación de WeChat.
2024.08.06 ¡Se lanza Pose ControlNet! Consulte ControlNet (Pose) para obtener más detalles.
2024.08.01 ¡Se publica el código de inferencia y entrenamiento Kolors-Dreambooth-LoRA! Consulte Dreambooth-LoRA para obtener más detalles.
2024.07.31 ¡Se publica el código de inferencia y pesos Kolors-IP-Adapter-FaceID-Plus! Consulte IP-Adapter-FaceID-Plus para obtener más detalles.
2024.07.26 ¡Se lanzan ControlNet e Inpainting Model! Consulte ControlNet (Canny, Depth) y Inpainting Model para obtener más detalles.
2024.07.17 ¡Se publica el código de inferencia y pesos Kolors-IP-Adapter-Plus! Consulte IP-Adapter-Plus para obtener más detalles.
2024.07.12 ? ¡Kolors ya está disponible en Difusores ! ¡Consulte los difusores kolors o el siguiente ejemplo para obtener más detalles! Gracias al equipo de Difusores por su soporte técnico.
2024.07.10 ? Kolors es compatible con ModelScope.
2024.07.09 ? Kolors es compatible con ComfyUI. Gracias a @kijai por su gran trabajo.
2024.07.06 Lanzamos Kolors , un gran modelo de texto a imagen entrenado en miles de millones de pares de texto-imagen. Este modelo es bilingüe tanto en chino como en inglés y admite una longitud de contexto de 256 tokens. Para obtener más detalles técnicos, consulte el informe técnico.
2024.07.03 ? Kolors obtuvo el segundo lugar en la tabla de clasificación de texto a imagen multimodal de FlagEval, sobresaliendo particularmente en la evaluación de calidad subjetiva en chino e inglés, donde Kolors obtuvo el primer lugar.
2024.07.02 ? ¡Felicidades! Nuestro documento sobre generación de video controlable, DragAnything: Motion Control for Anything usando Entity Representation, fue aceptado por ECCV 2024.
2024.02.08 ? ¡Felicidades! Nuestro artículo sobre evaluación de modelos generativos, Aprendizaje de la preferencia humana multidimensional para la generación de texto a imagen, fue aceptado por CVPR 2024.

? Plan de código abierto

? Introducción

Kolors es un modelo de generación de texto a imagen a gran escala basado en difusión latente, desarrollado por el equipo de Kuaishou Kolors. Kolors, entrenado con miles de millones de pares texto-imagen, exhibe ventajas significativas sobre los modelos de código abierto y cerrado en calidad visual, precisión semántica compleja y representación de texto para caracteres chinos e ingleses. Además, Kolors admite entradas tanto en chino como en inglés, lo que demuestra un sólido desempeño en la comprensión y generación de contenido específico en chino. Para obtener más detalles, consulte este informe técnico.

? Evaluación

Hemos recopilado un conjunto de datos completo de evaluación de texto a imagen llamado KolorsPrompts para comparar Kolors con otros modelos abiertos y de código cerrado de última generación. KolorsPrompts incluye más de 1000 indicaciones en 14 categorías y 12 dimensiones de evaluación. El proceso de evaluación incorpora evaluaciones tanto humanas como mecánicas. En evaluaciones comparativas relevantes, Kolors demostró un desempeño altamente competitivo y logró estándares líderes en la industria.

Evaluación humana

Para la evaluación humana, invitamos a 50 expertos en imágenes para realizar evaluaciones comparativas de los resultados generados por diferentes modelos. Los expertos calificaron las imágenes generadas según tres criterios: atractivo visual, fidelidad del texto y satisfacción general. En la evaluación, Kolors logró la puntuación de satisfacción general más alta y lideró significativamente en atractivo visual en comparación con otros modelos.

Modelo	Satisfacción general promedio	Atractivo visual promedio	Fidelidad promedio del texto
Adobe-luciérnaga	3.03	3.46	3.84
Difusión estable 3	3.26	3.50	4.20
DALL-E 3	3.32	3.54	4.22
A mitad del viaje-v5	3.32	3.68	4.02
Patio de recreo-v2.5	3.37	3.73	4.04
A mitad del viaje-v6	3.58	3.92	4.18
colores	3.59	3,99	4.17

Todos los resultados del modelo se prueban con las versiones del producto de abril de 2024.

Evaluación de máquinas

Utilizamos MPS (Puntuación de preferencia humana multidimensional) en KolorsPrompts como métrica de evaluación para la evaluación de la máquina. Kolors logró la puntuación MPS más alta, lo que concuerda con los resultados de las evaluaciones humanas.

Modelos	MPS general
Adobe-luciérnaga	8.5
Difusión estable 3	8.9
DALL-E 3	9.0
A mitad del viaje-v5	9.4
Patio de recreo-v2.5	9.8
A mitad del viaje-v6	10.2
colores	10.3

Para obtener más resultados experimentales y detalles, consulte nuestro informe técnico.

? Visualización

Retrato de alta calidad

Generación de elementos chinos

Comprensión semántica compleja

Representación de texto

Se puede acceder a las indicaciones del caso visualizadas mencionadas anteriormente aquí.

?️ Uso

Requisitos

Python 3.8 o posterior
PyTorch 1.13.1 o posterior
Transformadores 4.26.1 o posterior
Recomendado: CUDA 11.7 o posterior

Clonación de repositorios e instalación de dependencias

apt-get install git-lfs
git clone https://github.com/Kwai-Kolors/Kolors
cd Kolors
conda create --name kolors python=3.8
conda activate kolors
pip install -r requirements.txt
python3 setup.py install

Descarga de pesos (enlace):

huggingface-cli download --resume-download Kwai-Kolors/Kolors --local-dir weights/Kolors

git lfs clone https://huggingface.co/Kwai-Kolors/Kolors weights/Kolors

Inferencia:

python3 scripts/sample.py "一张瓢虫的照片，微距，变焦，高质量，电影，拿着一个牌子，写着“可图” "
# The image will be saved to "scripts/outputs/sample_text.jpg"

Demostración web:

python3 scripts/sampleui.py

Uso con difusores

Asegúrese de actualizar a la última versión (0.30.0.dev0) de los difusores:

 git clone https://github.com/huggingface/diffusers
cd diffusers
python3 setup.py install

Notas:

La canalización utiliza EulerDiscreteScheduler de forma predeterminada. Recomendamos utilizar este programador con guidance scale=5.0 y num_inference_steps=50 .
La canalización también admite EDMDPMSolverMultistepScheduler . guidance scale=5.0 y num_inference_steps=25 es un buen valor predeterminado para este programador.
Además de Texto a imagen, KolorsImg2ImgPipeline también admite Imagen a imagen.

Y luego puedes ejecutar:

 import torch
from diffusers import KolorsPipeline
pipe = KolorsPipeline . from_pretrained (
    "Kwai-Kolors/Kolors-diffusers" , 
    torch_dtype = torch . float16 , 
    variant = "fp16"
). to ( "cuda" )
prompt = '一张瓢虫的照片，微距，变焦，高质量，电影，拿着一个牌子，写着"可图"'
image = pipe (
    prompt = prompt ,
    negative_prompt = "" ,
    guidance_scale = 5.0 ,
    num_inference_steps = 50 ,
    generator = torch . Generator ( pipe . device ). manual_seed ( 66 ),
). images [ 0 ]
image . show ()

Adaptador IP Plus

Proporcionamos pesos de IP-Adapter-Plus y código de inferencia, detallados en el ipadapter.

 # Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-IP-Adapter-Plus --local-dir weights/Kolors-IP-Adapter-Plus

 # Inference：
python3 ipadapter/sample_ipadapter_plus.py ./ipadapter/asset/test_ip.jpg "穿着黑色T恤衫，上面中文绿色大字写着“可图” "

python3 ipadapter/sample_ipadapter_plus.py ./ipadapter/asset/test_ip2.png "一只可爱的小狗在奔跑"

# The image will be saved to "scripts/outputs/"

ControlNet

Proporcionamos tres pesos de ControlNet y código de inferencia, detallados en controlnet.

 # Weights download

# Canny - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Canny --local-dir weights/Kolors-ControlNet-Canny

# Depth - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Depth --local-dir weights/Kolors-ControlNet-Depth

# Pose - ControlNet
huggingface-cli download --resume-download Kwai-Kolors/Kolors-ControlNet-Pose --local-dir weights/Kolors-ControlNet-Pose

Si tiene la intención de utilizar la red de estimación de profundidad, asegúrese de descargar los pesos del modelo correspondiente.

 huggingface-cli download lllyasviel/Annotators ./dpt_hybrid-midas-501f0c75.pt --local-dir ./controlnet/annotator/ckpts

Gracias a DWPose, puedes utilizar la red de estimación de pose. Descargue el modelo Pose dw-ll_ucoco_384.onnx (baidu, google) y el modelo Det yolox_l.onnx (baidu, google). Luego colóquelos en controlnet/annotator/ckpts/ .

 # Inference：

python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_1.png 一个漂亮的女孩，高品质，超清晰，色彩鲜艳，超高分辨率，最佳品质，8k，高清，4K Canny

python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_2.png 新海诚风格，丰富的色彩，穿着绿色衬衫的女人站在田野里，唯美风景，清新明亮，斑驳的光影，最好的质量，超细节，8K画质 Depth

python ./controlnet/sample_controlNet.py ./controlnet/assets/woman_3.png 一位穿着紫色泡泡袖连衣裙、戴着皇冠和白色蕾丝手套的女孩双手托脸，高品质，超清晰，色彩鲜艳，超高分辨率，最佳品质，8k，高清，4K Pose

# The image will be saved to "controlnet/outputs/"

en pintura

Proporcionamos pesos de Inpainting y código de inferencia, detallados en el inpainting.

 # Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-Inpainting --local-dir weights/Kolors-Inpainting

 # Inference：
python3 inpainting/sample_inpainting.py ./inpainting/asset/3.png ./inpainting/asset/3_mask.png 穿着美少女战士的衣服，一件类似于水手服风格的衣服，包括一个白色紧身上衣，前胸搭配一个大大的红色蝴蝶结。衣服的领子部分呈蓝色，并且有白色条纹。她还穿着一条蓝色百褶裙，超高清，辛烷渲染，高级质感，32k，高分辨率，最好的质量，超级细节，景深

python3 inpainting/sample_inpainting.py ./inpainting/asset/4.png ./inpainting/asset/4_mask.png 穿着钢铁侠的衣服，高科技盔甲，主要颜色为红色和金色，并且有一些银色装饰。胸前有一个亮起的圆形反应堆装置，充满了未来科技感。超清晰，高质量，超逼真，高分辨率，最好的质量，超级细节，景深

# The image will be saved to "scripts/outputs/"

Adaptador IP-FaceID-Plus

Proporcionamos pesos y código de inferencia IP-Adapter-FaceID-Plus, detallados en ipadapter_FaceID.

 # Weights download
huggingface-cli download --resume-download Kwai-Kolors/Kolors-IP-Adapter-FaceID-Plus --local-dir weights/Kolors-IP-Adapter-FaceID-Plus

 # Inference：
python ipadapter_FaceID/sample_ipadapter_faceid_plus.py ./ipadapter_FaceID/assets/image1.png "穿着晚礼服，在星光下的晚宴场景中，烛光闪闪，整个场景洋溢着浪漫而奢华的氛围"

python ipadapter_FaceID/sample_ipadapter_faceid_plus.py ./ipadapter_FaceID/assets/image2.png "西部牛仔，牛仔帽，荒野大镖客，背景是西部小镇，仙人掌，,日落余晖, 暖色调, 使用XT4胶片拍摄, 噪点, 晕影, 柯达胶卷，复古"

# The image will be saved to "scripts/outputs/"

Dreambooth-LoRA

Proporcionamos código de inferencia y capacitación de LoRA, detallado en Dreambooth-LoRA.

 # Training:
sh train.sh

 # Inference：
python infer_dreambooth.py " ktxl狗在草地上跑"

? Licencia, citación y reconocimientos

Licencia

Las ponderaciones de Kolors están completamente abiertas a la investigación académica. Si tiene intención de utilizar el modelo Kolors o sus derivados con fines comerciales según los términos y condiciones de la licencia, envíe el cuestionario a [email protected] para registrarse con el licenciante. Si los usuarios activos mensuales de todos los productos o servicios puestos a disposición por o para el Licenciatario no superan los 300 millones de usuarios activos mensuales en el mes calendario anterior, se considerará que su registro con el Licenciante ha obtenido la licencia comercial correspondiente; Si los usuarios activos mensuales de todos los productos o servicios puestos a disposición por o para el Licenciatario superan los 300 millones de usuarios activos mensuales en el mes calendario anterior, debe solicitar una licencia al Licenciante, que el Licenciante puede otorgarle a su entera discreción. , y Usted no está autorizado a ejercer ninguno de los derechos establecidos en este Acuerdo a menos o hasta que Nosotros le otorguemos expresamente dichos derechos.

Abrimos Kolors de código abierto para promover el desarrollo de grandes modelos de texto a imagen en colaboración con la comunidad de código abierto. El código de este proyecto es de código abierto bajo la licencia Apache-2.0. Instamos sinceramente a todos los desarrolladores y usuarios a adherirse estrictamente a la licencia de código abierto, evitando el uso del modelo, código y sus derivados de código abierto para cualquier propósito que pueda dañar al país y a la sociedad o para cualquier servicio no evaluado y registrado. por seguridad. Tenga en cuenta que a pesar de nuestros mejores esfuerzos para garantizar el cumplimiento, la precisión y la seguridad de los datos durante el entrenamiento, debido a la diversidad y combinabilidad del contenido generado y la aleatoriedad probabilística que afecta al modelo, no podemos garantizar la precisión y seguridad del contenido de salida. y el modelo es susceptible de inducir a error. Este proyecto no asume ninguna responsabilidad legal por problemas de seguridad de datos, riesgos de opinión pública o riesgos y responsabilidades que surjan de que el modelo sea engañado, abusado, mal utilizado o utilizado indebidamente debido al uso del modelo y código de fuente abierta.

Citación

Si encuentra útil nuestro trabajo, ¡cítelo!

 @article{kolors,
  title={Kolors: Effective Training of Diffusion Model for Photorealistic Text-to-Image Synthesis},
  author={Kolors Team},
  journal={arXiv preprint},
  year={2024}
}

Expresiones de gratitud

Gracias a Difusores por proporcionar el código base.
Gracias a ChatGLM3 por proporcionar el potente modelo de idioma chino.

Contáctenos

Si desea dejar un mensaje para nuestro equipo de I+D y nuestro equipo de producto, no dude en unirse a nuestro grupo WeChat. También puede contactarnos por correo electrónico ([email protected]).

Expandir