Téléchargement IP Adapter - Téléchargement du code source IP Adapter

IP Adapter

Autre code source

1.0.0

Télécharger

IP-adaptateur: adaptateur d'invite d'image compatible en texte pour les modèles de diffusion de texte à l'image

Introduction

Nous présentons l'adaptation IP, un adaptateur efficace et léger pour atteindre la capacité d'invite d'image pour les modèles de diffusion de texte à image pré-formés. Un adaptateur IP avec seulement 22 m de paramètres peut atteindre des performances comparables ou encore meilleures à un modèle d'invite d'image affiné. L'adaptation IP peut être généralisée non seulement à d'autres modèles personnalisés affinés du même modèle de base, mais également à la génération contrôlable à l'aide d'outils contrôlables existants. De plus, l'invite d'image peut également bien fonctionner avec l'invite de texte pour accomplir la génération d'images multimodales.

cambre

Libérer

[2024/01/19] Ajouter IP-Adapter-Faceid-Portrait, plus d'informations peuvent être trouvées ici.
[2024/01/17] Ajoutez une version expérimentale d'IP-adapter-FaceID-PLUSV2 pour SDXL, plus d'informations peuvent être trouvées ici.
[2024/01/04] Ajoutez une version expérimentale d'IP-adapter-FACEID pour SDXL, plus d'informations peuvent être trouvées ici.
[2023/12/29] Ajoutez une version expérimentale d'IP-adapter-FaceID-PLUSV2, plus d'informations peuvent être trouvées ici.
[2023/12/27] Ajoutez une version expérimentale d'IP-adapter-Faceid-Plus, plus d'informations peuvent être trouvées ici.
[2023/12/20] Ajoutez une version expérimentale d'IP-adapter-FaceID, plus d'informations peuvent être trouvées ici.
[2023/11/22] IP-Adapter est disponible dans les diffuseurs grâce à l'équipe DIFFUSERS.
[2023/11/10] Ajoutez une version mise à jour de IP-Adapter-Face. La démo est là.
[2023/11/05] Ajouter une démo texto-image avec IP-adaptère et Kandinsky 2.2 avant
[2023/11/02] Prise en charge des Safettenseurs
[2023/9/08] Mettez à jour une nouvelle version d'adaptateur IP avec SDXL_1.0. Plus d'informations peuvent être trouvées ici.
[2023/9/05] IP-adapter est pris en charge dans webui et comfyui (ou comfyui_ipadapter_plus).
[2023/8/30] Ajoutez un adaptateur IP avec l'image du visage comme invite. La démo est là.
[2023/8/29] Libérez le code de formation.
[2023/8/23] Ajoutez du code et des modèles d'adaptation IP avec des fonctionnalités à grain fin. La démo est là.
[2023/8/18] Ajouter du code et des modèles pour SDXL 1.0. La démo est là.
[2023/8/16] Nous libérons le code et les modèles.

Installation

 # install latest diffusers
pip install diffusers==0.22.1

# install ip-adapter
pip install git+https://github.com/tencent-ailab/IP-Adapter.git

# download the models
cd IP-Adapter
git lfs install
git clone https://huggingface.co/h94/IP-Adapter
mv IP-Adapter/models models
mv IP-Adapter/sdxl_models sdxl_models

# then you can use the notebook

Télécharger des modèles

Vous pouvez télécharger des modèles à partir d'ici. Pour exécuter la démo, vous devez également télécharger les modèles suivants:

runwayml / stable-diffusion-v1-5
stabilitéi / sd-vae-ff-mse
Sg161222 / réaliste_vision_v4.0_novae
Modèles ControlNet

Comment utiliser

SD_1.5

IP_ADAPTER_DEMO : Variations d'image, image-image et intrassement avec une invite d'image.

Variations d'image

image à l'image

déaini

ip_adapter_controlnet_demo , ip_adapter_t2i-adapter : génération structurelle avec invite d'image.

Structural_cond Structural_Cond2

ip_adapter_multimodal_prompts_demo : génération avec des invites multimodales.

multi_prompt

IP_ADAPTER-PLUS_DEMO : La démo de l'adaptateur IP avec des fonctionnalités à grain fin.

ip_adpter_plus_image_variations ip_adpter_plus_multi

IP_ADAPTER-PLUS-FACE_DEMO : GÉNÉRATION AVEC IMAGE FACE AS COMPRIS.

ip_adpter_plus_face

Meilleure pratique

Si vous n'utilisez que l'invite d'image, vous pouvez définir l' scale=1.0 et text_prompt="" (ou certaines invites de texte génériques, par exemple la "meilleure qualité", vous pouvez également utiliser n'importe quelle invite de texte négative). Si vous abaissez l' scale , des images plus diverses peuvent être générées, mais elles peuvent ne pas être aussi cohérentes avec l'invite d'image.
Pour les invites multimodales, vous pouvez ajuster l' scale pour obtenir les meilleurs résultats. Dans la plupart des cas, scale=0.5 peut obtenir de bons résultats. Pour la version de SD 1.5, nous vous recommandons d'utiliser des modèles communautaires pour générer de bonnes images.

Adaptateur IP pour les images non carrés

Étant donné que l'image est recadrée dans le processeur d'image par défaut de Clip, l'adaptateur IP fonctionne mieux pour les images carrées. Pour les images non carrées, il manquera les informations à l'extérieur du centre. Mais vous pouvez simplement redimensionner à 224x224 pour les images non carrés, la comparaison est la suivante:

Sdxl_1.0

ip_adapter_sdxl_demo : variations d'image avec l'invite d'image.
ip_adapter_sdxl_controlnet_demo : génération structurelle avec invite d'image.

La comparaison de IP-ADAPTER_XL avec Reimagine XL est indiquée comme suit:

sdxl_demo

Améliorations dans la nouvelle version (2023.9.8) :

Passez à Clip-Vit-H : Nous avons formé le nouvel adaptateur IP avec OpenClip-Vit-H-14 au lieu d'OpenClip-Vit-Bigg-14. Bien que Vit-Bigg soit beaucoup plus grand que Vit-H, nos résultats expérimentaux n'ont pas trouvé de différence significative et le modèle plus petit peut réduire l'utilisation de la mémoire dans la phase d'inférence.
Une recette de formation plus rapide et meilleure : dans notre version précédente, la formation directement à une résolution de 1024x1024 s'est avérée très inefficace. Cependant, dans la nouvelle version, nous avons mis en œuvre une stratégie de formation en deux étapes plus efficace. Premièrement, nous effectuons une pré-formation à une résolution de 512x512. Ensuite, nous utilisons une stratégie à plusieurs échelles pour le réglage fin. (Peut-être que cette stratégie de formation peut également être utilisée pour accélérer la formation de ControlNet).

Comment s'entraîner

Pour la formation, vous devez installer Accelerate et transformer votre propre ensemble de données dans un fichier JSON.

 accelerate launch --num_processes 8 --multi_gpu --mixed_precision "fp16" 
  tutorial_train.py 
  --pretrained_model_name_or_path="runwayml/stable-diffusion-v1-5/" 
  --image_encoder_path="{image_encoder_path}" 
  --data_json_file="{data.json}" 
  --data_root_path="{image_path}" 
  --mixed_precision="fp16" 
  --resolution=512 
  --train_batch_size=8 
  --dataloader_num_workers=4 
  --learning_rate=1e-04 
  --weight_decay=0.01 
  --output_dir="{output_dir}" 
  --save_steps=10000

Une fois la formation terminée, vous pouvez convertir les poids avec le code suivant:

 import torch
ckpt = "checkpoint-50000/pytorch_model.bin"
sd = torch . load ( ckpt , map_location = "cpu" )
image_proj_sd = {}
ip_sd = {}
for k in sd :
    if k . startswith ( "unet" ):
        pass
    elif k . startswith ( "image_proj_model" ):
        image_proj_sd [ k . replace ( "image_proj_model." , "" )] = sd [ k ]
    elif k . startswith ( "adapter_modules" ):
        ip_sd [ k . replace ( "adapter_modules." , "" )] = sd [ k ]

torch . save ({ "image_proj" : image_proj_sd , "ip_adapter" : ip_sd }, "ip_adapter.bin" )

Utilisation de tiers

IP-adapter pour webui [Notes de publication]
IP-adapter pour comfyui [iPadapter-comfyui ou comfyui_ipadapter_plus]
IP-adapter pour invokeai [Notes de version]
IP-adaptateur pour un voyage invite animéFIF
Diffusers_ipadapter: plus de fonctionnalités telles que la prise en charge de plusieurs images d'entrée
Diffuseurs officiels
InstantStyle: Transfert de style basé sur l'adaptation IP

Clause de non-responsabilité

Ce projet s'efforce d'avoir un impact positif sur le domaine de la génération d'images dirigée par l'IA. Les utilisateurs ont la liberté de créer des images en utilisant cet outil, mais ils devraient se conformer aux lois locales et l'utiliser de manière responsable. Les développeurs n'assument aucune responsabilité pour une mauvaise utilisation potentielle des utilisateurs.

Citation

Si vous trouvez l'adaptation IP utile pour vos recherches et vos applications, veuillez citer à l'aide de ce bibtex:

 @article { ye2023ip-adapter ,
  title = { IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models } ,
  author = { Ye, Hu and Zhang, Jun and Liu, Sibo and Han, Xiao and Yang, Wei } ,
  booktitle = { arXiv preprint arxiv:2308.06721 } ,
  year = { 2023 }
}