Download IP Adapter - download do código -fonte IP Adapter

IP Adapter

Outro código-fonte

1.0.0

Baixar

Adaptador IP: Adaptador de prompt de imagem compatível com texto para modelos de difusão de texto a imagem

Introdução

Apresentamos o adaptador IP, um adaptador eficaz e leve para alcançar a capacidade de prompt de imagem para os modelos de difusão de texto para imagem pré-treinados. Um adaptador IP com apenas 22M parâmetros pode obter um desempenho comparável ou ainda melhor com um modelo de prompt de imagem ajustado. O adaptador IP pode ser generalizado não apenas para outros modelos personalizados ajustados do mesmo modelo básico, mas também para geração controlável usando ferramentas controláveis existentes. Além disso, o prompt de imagem também pode funcionar bem com o prompt de texto para realizar a geração de imagens multimodais.

arco

Liberar

[2024/01/19] Adicione IP-adapter-faceid-portrait, mais informações podem ser encontradas aqui.
[2024/01/17] Adicione uma versão experimental do IP-adapter-faceid-plusv2 para SDXL, mais informações podem ser encontradas aqui.
[2024/01/04] Adicione uma versão experimental do IP-adapter-faceID para SDXL, mais informações podem ser encontradas aqui.
[2023/12/29] Adicione uma versão experimental do IP-adapter-faceid-plusv2, mais informações podem ser encontradas aqui.
[2023/12/27] Adicione uma versão experimental do IP-adapter-faceid-plus, mais informações podem ser encontradas aqui.
[2023/12/20] Adicione uma versão experimental do IP-adapter-faceid, mais informações podem ser encontradas aqui.
[2023/11/22] O IP-AdApter está disponível em difusores graças à equipe de difusores.
[2023/11/10] Adicione uma versão atualizada do IP-adapter-face. A demonstração está aqui.
[2023/11/05] Adicione a demonstração de texto à imagem com IP-Adapter e Kandinsky 2.2 Prior
[2023/11/02] Apoie o SafeTetensors
[2023/9/08] Atualize uma nova versão do IP-Adapter com SDXL_1.0. Mais informações podem ser encontradas aqui.
[2023/9/05] O IP-adapter é suportado em webui e conforfyui (ou confortyui_ipadapter_plus).
[2023/8/30] Adicione um adaptador IP com a imagem do rosto como prompt. A demonstração está aqui.
[2023/8/29] Libere o código de treinamento.
[2023/8/23] Adicione código e modelos de adaptador IP com recursos de granulação fina. A demonstração está aqui.
[2023/8/18] Adicione código e modelos para SDXL 1.0. A demonstração está aqui.
[2023/8/16] Lançamos o código e os modelos.

Instalação

 # install latest diffusers
pip install diffusers==0.22.1

# install ip-adapter
pip install git+https://github.com/tencent-ailab/IP-Adapter.git

# download the models
cd IP-Adapter
git lfs install
git clone https://huggingface.co/h94/IP-Adapter
mv IP-Adapter/models models
mv IP-Adapter/sdxl_models sdxl_models

# then you can use the notebook

Baixar modelos

Você pode baixar modelos aqui. Para executar a demonstração, você também deve baixar os seguintes modelos:

punwayml/stable-difusão-v1-5
estabilidadei/sd-vae-ft-mse
SG161222/realistic_vision_v4.0_novae
Modelos Controlnet

Como usar

SD_1.5

IP_ADAPTER_DEMO : Variações de imagem, imagem a imagem e pintura com o prompt de imagem.

variações de imagem

imagem a imagem

Painting

IP_ADAPTER_CONTROLNET_DEMO , IP_ADAPTER_T2I-ADAPTER : geração estrutural com prompt de imagem.

Structural_cond Structural_cond2

ip_adapter_multimodal_prompts_demo : geração com prompts multimodais.

Multi_prompts

IP_ADAPTER-PLUS_DEMO : A demonstração do adaptador IP com recursos de grão fino.

IP_ADPTER_PLUS_IMAGE_VARIATIONS ip_adpter_plus_multi

IP_ADAPTER-PLUS-FACE_DEMO : Geração com a imagem da face como prompt.

ip_adpter_plus_face

Prática recomendada

Se você usar apenas o prompt de imagem, poderá definir a scale=1.0 e text_prompt="" (ou alguns prompts genéricos de texto, por exemplo, "melhor qualidade", você também pode usar qualquer prompt de texto negativo). Se você diminuir a scale , imagens mais diversas podem ser geradas, mas elas podem não ser tão consistentes com o prompt de imagem.
Para instruções multimodais, você pode ajustar a scale para obter os melhores resultados. Na maioria dos casos, a definição scale=0.5 pode obter bons resultados. Para a versão do SD 1.5, recomendamos o uso de modelos comunitários para gerar boas imagens.

Adaptador IP para imagens não quadradas

À medida que a imagem é centrada no processador de imagem padrão do clipe, o IP-Adaption funciona melhor para imagens quadradas. Para as imagens não quadradas, perderá as informações fora do centro. Mas você pode apenas redimensionar para 224x224 para imagens não quadradas, a comparação é a seguinte:

Sdxl_1.0

ip_adapter_sdxl_demo : variações de imagem com prompt de imagem.
ip_adapter_sdxl_controlnet_demo : geração estrutural com prompt de imagem.

A comparação de ip-adapter_xl com a reimagina XL é mostrada da seguinte maneira:

sdxl_demo

Melhorias na nova versão (2023.9.8) :

Mudar para CLIP-VIT-H : Treinamos o novo adaptador IP com OpenClip-Vit-H-14 em vez de OpenClip-Vit-Bigg-14. Embora o Vit-Bigg seja muito maior que o Vit-H, nossos resultados experimentais não encontraram uma diferença significativa e o modelo menor pode reduzir o uso da memória na fase de inferência.
Uma receita de treinamento mais rápida e melhor : em nossa versão anterior, o treinamento diretamente com uma resolução de 1024x1024 provou ser altamente ineficiente. No entanto, na nova versão, implementamos uma estratégia de treinamento em dois estágios mais eficaz. Em primeiro lugar, realizamos pré-treinamento com uma resolução de 512x512. Em seguida, empregamos uma estratégia de várias escalas para ajuste fino. (Talvez essa estratégia de treinamento também possa ser usada para acelerar o treinamento do ControlNet).

Como treinar

Para treinamento, você deve instalar acelerar e transformar seu próprio conjunto de dados em um arquivo json.

 accelerate launch --num_processes 8 --multi_gpu --mixed_precision "fp16" 
  tutorial_train.py 
  --pretrained_model_name_or_path="runwayml/stable-diffusion-v1-5/" 
  --image_encoder_path="{image_encoder_path}" 
  --data_json_file="{data.json}" 
  --data_root_path="{image_path}" 
  --mixed_precision="fp16" 
  --resolution=512 
  --train_batch_size=8 
  --dataloader_num_workers=4 
  --learning_rate=1e-04 
  --weight_decay=0.01 
  --output_dir="{output_dir}" 
  --save_steps=10000

Depois que o treinamento estiver concluído, você pode converter os pesos com o seguinte código:

 import torch
ckpt = "checkpoint-50000/pytorch_model.bin"
sd = torch . load ( ckpt , map_location = "cpu" )
image_proj_sd = {}
ip_sd = {}
for k in sd :
    if k . startswith ( "unet" ):
        pass
    elif k . startswith ( "image_proj_model" ):
        image_proj_sd [ k . replace ( "image_proj_model." , "" )] = sd [ k ]
    elif k . startswith ( "adapter_modules" ):
        ip_sd [ k . replace ( "adapter_modules." , "" )] = sd [ k ]

torch . save ({ "image_proj" : image_proj_sd , "ip_adapter" : ip_sd }, "ip_adapter.bin" )

Uso de terceiros

Adaptador IP para Webui [Notas de liberação]
Adaptador IP para Comfyui [ipadapter-comfyui ou comfyui_ipadapter_plus]
Adaptador IP para Invokeai [Notas de liberação]
Apagador IP para Viagem Prompt de Animatediff
Diffusers_ipadapter: Mais recursos, como suportar várias imagens de entrada
Difusores oficiais
InstantStyle: transferência de estilo com base no adaptador IP

Isenção de responsabilidade

Este projeto se esforça para impactar positivamente o domínio da geração de imagens acionada por IA. Os usuários têm a liberdade de criar imagens usando essa ferramenta, mas espera -se que cumpram as leis locais e a utilizem de maneira responsável. Os desenvolvedores não assumem nenhuma responsabilidade pelo uso indevido em potencial pelos usuários.

Citação

Se você achar o adaptador IP útil para sua pesquisa e aplicativos, cite usando este Bibtex:

 @article { ye2023ip-adapter ,
  title = { IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models } ,
  author = { Ye, Hu and Zhang, Jun and Liu, Sibo and Han, Xiao and Yang, Wei } ,
  booktitle = { arXiv preprint arxiv:2308.06721 } ,
  year = { 2023 }
}