Descarga IP Adapter - Descargar el código fuente IP Adapter

IP Adapter

Otro código fuente

1.0.0

Descargar

Adaptor IP: adaptador de solicitud de imagen compatible con texto para modelos de difusión de texto a imagen

Introducción

Presentamos el adaptador IP, un adaptador efectivo y liviano para lograr la capacidad de solicitud de imagen para los modelos de difusión de texto a imagen previamente entrenados. Un adaptador IP con solo 22 m de parámetros puede lograr un rendimiento comparable o incluso mejor para un modelo de indicación de imagen sintonizado. El adaptador IP se puede generalizar no solo a otros modelos personalizados ajustados del mismo modelo base, sino también a la generación controlable utilizando herramientas controlables existentes. Además, el mensaje de imagen también puede funcionar bien con la solicitud de texto para lograr la generación de imágenes multimodales.

arco

Liberar

[2024/01/19] Agregue IP-adaptador-FaceID-Portrait, se puede encontrar más información aquí.
[2024/01/17] Agregue una versión experimental de IP-Adapter-FaceID-PLUSV2 para SDXL, se puede encontrar más información aquí.
[2024/01/04] Agregue una versión experimental de IP-Adapter-FaceID para SDXL, se puede encontrar más información aquí.
[2023/12/29] Agregue una versión experimental de IP-Adapter-FaceID-PLUSV2, se puede encontrar más información aquí.
[2023/12/27] Agregue una versión experimental de IP-Adapter-FaceID-plus, se puede encontrar más información aquí.
[2023/12/20] Agregue una versión experimental de IP-Adapter-FaceID, se puede encontrar más información aquí.
[2023/11/22] El adaptador IP está disponible en difusores gracias al equipo de difusores.
[2023/11/10] Agregue una versión actualizada de IP-Adapter-Face. La demostración está aquí.
[2023/11/05] Agregue la demostración de texto a imagen con el adaptador IP y Kandinsky 2.2 Prior
[2023/11/02] Soporte de Safetensors
[2023/9/08] Actualice una nueva versión del adaptador IP con SDXL_1.0. Se puede encontrar más información aquí.
[2023/9/05] El adaptador IP es compatible con Webui y Comfyui (o Comfyui_ipadapter_plus).
[2023/8/30] Agregue un adaptador IP con la imagen de la cara como aviso. La demostración está aquí.
[2023/8/29] Relacione el código de entrenamiento.
[2023/8/23] Agregue código y modelos de adaptador IP con características de grano fino. La demostración está aquí.
[2023/8/18] Agregue código y modelos para SDXL 1.0. La demostración está aquí.
[2023/8/16] Lanzamos el código y los modelos.

Instalación

 # install latest diffusers
pip install diffusers==0.22.1

# install ip-adapter
pip install git+https://github.com/tencent-ailab/IP-Adapter.git

# download the models
cd IP-Adapter
git lfs install
git clone https://huggingface.co/h94/IP-Adapter
mv IP-Adapter/models models
mv IP-Adapter/sdxl_models sdxl_models

# then you can use the notebook

Descargar modelos

Puedes descargar modelos desde aquí. Para ejecutar la demostración, también debe descargar los siguientes modelos:

Runwayml/Stable-Diffusion-V1-5
estabilidadi/sd-vae-ft-mse
SG161222/Realistic_Vision_V4.0_Novae
Modelos de control

Cómo usar

SD_1.5

IP_ADAPTER_DEMO : variaciones de imagen, imagen a imagen e interpago con el indicador de la imagen.

Variaciones de imagen

imagen a imagen

entretenimiento

ip_adapter_controlnet_demo , ip_adapter_t2i-adapter : generación estructural con indicador de imagen.

estructural_cond estructural_cond2

IP_ADAPTER_MULTIMODAL_PROMPTS_DEMO : Generación con indicaciones multimodales.

multi_prompts

IP_Adapter-plus_demo : la demostración del adaptador IP con características de grano fino.

ip_adpter_plus_image_variations ip_adpter_plus_multi

ip_adapter-plus-face_demo : generación con imagen de la cara como indicador.

ip_adpter_plus_face

Mejor práctica

Si solo usa el indicador de la imagen, puede establecer la scale=1.0 y text_prompt="" (o algunas indicaciones de texto genéricas, por ejemplo, "mejor calidad", también puede usar cualquier indicador de texto negativo). Si baja la scale , se pueden generar imágenes más diversas, pero pueden no ser tan consistentes con el mensaje de imagen.
Para las indicaciones multimodales, puede ajustar la scale para obtener los mejores resultados. En la mayoría de los casos, scale=0.5 puede obtener buenos resultados. Para la versión de SD 1.5, recomendamos usar modelos comunitarios para generar buenas imágenes.

Adaptor IP para imágenes no cuadradas

Como la imagen se recorta central en el procesador de imagen predeterminado del clip, el adaptador IP funciona mejor para imágenes cuadradas. Para las imágenes no cuadradas, se perderá la información fuera del centro. Pero puede cambiar el tamaño a 224x224 para imágenes no cuadradas, la comparación es la siguiente:

Sdxl_1.0

IP_ADAPTER_SDXL_DEMO : Variaciones de imagen con el indicador de la imagen.
IP_ADAPTER_SDXL_CONTROLNET_DEMO : Generación estructural con indicación de imagen.

La comparación de IP-Adapter_XL con Reimagine XL se muestra de la siguiente manera:

sdxl_demo

Mejoras en la nueva versión (2023.9.8) :

Cambie a Clip-Vit-H : entrenamos el nuevo adaptador IP con OpenCLIP-VIT-H-14 en lugar de OpenClip-Vit-Bigg-14. Aunque VIT-Bigg es mucho más grande que VIT-H, nuestros resultados experimentales no encontraron una diferencia significativa, y el modelo más pequeño puede reducir el uso de la memoria en la fase de inferencia.
Una receta de entrenamiento más rápida y mejor : en nuestra versión anterior, el entrenamiento directamente a una resolución de 1024x1024 demostró ser altamente ineficiente. Sin embargo, en la nueva versión, hemos implementado una estrategia de capacitación de dos etapas más efectiva. En primer lugar, realizamos un pre-entrenamiento a una resolución de 512x512. Luego, empleamos una estrategia multiescala para ajustar. (Tal vez esta estrategia de entrenamiento también se puede usar para acelerar el entrenamiento de Controlnet).

Cómo entrenar

Para la capacitación, debe instalar acelerar y convertir su propio conjunto de datos en un archivo JSON.

 accelerate launch --num_processes 8 --multi_gpu --mixed_precision "fp16" 
  tutorial_train.py 
  --pretrained_model_name_or_path="runwayml/stable-diffusion-v1-5/" 
  --image_encoder_path="{image_encoder_path}" 
  --data_json_file="{data.json}" 
  --data_root_path="{image_path}" 
  --mixed_precision="fp16" 
  --resolution=512 
  --train_batch_size=8 
  --dataloader_num_workers=4 
  --learning_rate=1e-04 
  --weight_decay=0.01 
  --output_dir="{output_dir}" 
  --save_steps=10000

Una vez que se completa el entrenamiento, puede convertir los pesos con el siguiente código:

 import torch
ckpt = "checkpoint-50000/pytorch_model.bin"
sd = torch . load ( ckpt , map_location = "cpu" )
image_proj_sd = {}
ip_sd = {}
for k in sd :
    if k . startswith ( "unet" ):
        pass
    elif k . startswith ( "image_proj_model" ):
        image_proj_sd [ k . replace ( "image_proj_model." , "" )] = sd [ k ]
    elif k . startswith ( "adapter_modules" ):
        ip_sd [ k . replace ( "adapter_modules." , "" )] = sd [ k ]

torch . save ({ "image_proj" : image_proj_sd , "ip_adapter" : ip_sd }, "ip_adapter.bin" )

Uso de terceros

IP-Adapter para WebUI [Notas de la versión]
IP-Adapter para Comfyui [iPadapter-Comfyui o Comfyui_ipadapter_plus]
IP-Adapter para Invokeai [Notas de la versión]
IP-Adapter para viajes de inmediato de Animatediff
Difusers_ipadapter: más características, como el soporte de múltiples imágenes de entrada
Difusores oficiales
InstantStyle: Transferencia de estilo basada en el adaptador IP

Descargo de responsabilidad

Este proyecto se esfuerza por impactar positivamente el dominio de la generación de imágenes impulsada por la IA. A los usuarios se les otorga la libertad de crear imágenes utilizando esta herramienta, pero se espera que cumplan con las leyes locales y las utilizan de manera responsable. Los desarrolladores no asumen ninguna responsabilidad por el mal uso potencial por parte de los usuarios.

Citación

Si encuentra útil el adaptador IP para su investigación y aplicaciones, cite con este bibtex:

 @article { ye2023ip-adapter ,
  title = { IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models } ,
  author = { Ye, Hu and Zhang, Jun and Liu, Sibo and Han, Xiao and Yang, Wei } ,
  booktitle = { arXiv preprint arxiv:2308.06721 } ,
  year = { 2023 }
}

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-02-13
tamaño 73.95MB
Proviene de Github

Aplicaciones relacionadas

ip location db

2024-11-10
Escáner IP LAN v2020

2024-11-04
Modificador de IP v2020

2024-11-03
Aplicación Arte Urbano Ip

2023-05-08
Base de datos QQ IP

2009-06-22
Ladrón de consultas de IP IP138

2009-05-08

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
waymo open dataset

Otro código fuente

December 2023 Update
SmartTube

Otro código fuente

24.71 Stable
Sunamu

Otro código fuente

Release 2.2.0
waymo open dataset

Otro código fuente

December 2023 Update
wp functions

Otras categorias

1.0.0
termwind

Otras categorias

v2.3.0

Información relacionada Todo