IP Adapter -Download - IP Adapter -Quellcode herunterladen

IP Adapter

Anderer Quellcode

1.0.0

Herunterladen

IP-Adapter: Textkompatible Bildaufforderung Adapter für Text-zu-Image-Diffusionsmodelle

Einführung

Wir präsentieren IP-Adapter, einen effektiven und leichten Adapter, um die Bildaufforderung für die vorgebildeten Text-zu-Image-Diffusionsmodelle zu erzielen. Ein IP-Adapter mit nur 22M-Parametern kann eine vergleichbare oder sogar bessere Leistung zu einem fein abgestimmten Bildaufforderung erringen. IP-Adapter kann nicht nur auf andere benutzerdefinierte Modelle verallgemeinert werden, die aus demselben Basismodell fein abgestimmt sind, sondern auch auf steuerbare Generation mit vorhandenen steuerbaren Tools. Darüber hinaus kann die Bildaufforderung auch gut mit der Textaufforderung funktionieren, um die multimodale Bildgenerierung zu erreichen.

Bogen

Freigeben

[2024/01/19] Fügen Sie IP-Adapter-Fadeid-Portrait hinzu, hier finden Sie weitere Informationen.
[2024/01/17] Fügen Sie eine experimentelle Version von IP-Adapter-Faceid-plusv2 für SDXL hinzu, hier finden Sie weitere Informationen.
[2024/01/04] Fügen Sie eine experimentelle Version von IP-Adapter-Fac für SDXL hinzu. Weitere Informationen finden Sie hier.
[2023/12/29] Fügen Sie eine experimentelle Version von IP-Adapter-Faceid-plusv2 hinzu, hier finden Sie weitere Informationen.
[2023/12/27] Fügen Sie eine experimentelle Version von IP-Adapter-Faceid-plus hinzu. Weitere Informationen finden Sie hier.
[2023/12/20] Fügen Sie eine experimentelle Version von IP-Adapter-Fadeid hinzu. Weitere Informationen finden Sie hier.
[2023/11/22] IP-Adapter ist dank des Diffusers-Teams in Diffusoren erhältlich.
[2023/11/10] Fügen Sie eine aktualisierte Version von IP-Adapter-Face hinzu. Die Demo ist hier.
[2023/11/05] Fügen Sie die Text-to-Image-Demo mit IP-Adapter und Kandinsky 2.2 vor
[2023/11/02] Support Safetensoren
[2023/9/08] Aktualisieren Sie eine neue Version von IP-Adapter mit SDXL_1.0. Weitere Informationen finden Sie hier.
[2023/9/05] IP-Adapter wird in Webui und Comfyui (oder comfyui_ipadapter_plus) unterstützt.
[2023/8/30] Fügen Sie einen IP-Adapter mit dem Gesichtsbild als Eingabeaufforderung hinzu. Die Demo ist hier.
[2023/8/29] Veröffentlichen Sie den Trainingscode.
[2023/8/23] Fügen Sie Code und Modelle von IP-Adapter mit feinkörnigen Funktionen hinzu. Die Demo ist hier.
[2023/8/18] Fügen Sie Code und Modelle für SDXL 1.0 hinzu. Die Demo ist hier.
[2023/8/16] Wir veröffentlichen den Code und die Modelle.

Installation

 # install latest diffusers
pip install diffusers==0.22.1

# install ip-adapter
pip install git+https://github.com/tencent-ailab/IP-Adapter.git

# download the models
cd IP-Adapter
git lfs install
git clone https://huggingface.co/h94/IP-Adapter
mv IP-Adapter/models models
mv IP-Adapter/sdxl_models sdxl_models

# then you can use the notebook

Herunterladen Modelle

Sie können Modelle von hier herunterladen. Um die Demo auszuführen, sollten Sie auch die folgenden Modelle herunterladen:

Runwayml/Stable-Diffusion-V1-5
Stabilityai/SD-vae-ft-mse
Sg161222/realistic_vision_v4.0_novae
Steuerungsmodelle

Wie man benutzt

SD_1.5

IP_ADAPTER_DEMO : Bildvariationen, Bild-zu-Image und Inpainting mit Bildaufforderung.

Bildvariationen

Bild-zu-Image

Inpainting

ip_adapter_controlnet_demo , ip_adapter_t2i-adapter : strukturelle Erzeugung mit Bildaufforderung.

struktural_cond struktural_cond2

ip_adapter_multimodal_prompts_demo : Generation mit multimodalen Eingabeaufforderungen.

Multi_prompts

IP_ADAPTER-PLUS_DEMO : Die Demo des IP-Adapters mit feinkörnigen Funktionen.

IP_ADPTER_PLUS_IMAGE_VARIATIONS ip_adpter_plus_multi

IP_ADAPTER-PLUS-FACE_DEMO : Erzeugung mit Gesichtsbild als Eingabeaufforderung.

IP_ADPTER_PLUS_FACE

Beste Practice

Wenn Sie nur die Bildaufforderung verwenden, können Sie die scale=1.0 und text_prompt="" (oder einige generische Texteingabeaufforderungen, z. B. "beste Qualität", auch eine negative Textaufforderung verwenden). Wenn Sie die scale senken, können vielfältigere Bilder generiert werden, die jedoch möglicherweise nicht so übereinstimmend mit der Bildaufforderung stimmen.
Bei multimodalen Eingabeaufforderungen können Sie die scale anpassen, um die besten Ergebnisse zu erzielen. In den meisten Fällen kann das Einstellen scale=0.5 gute Ergebnisse erzielen. Für die Version von SD 1.5 empfehlen wir die Verwendung von Community -Modellen, um gute Bilder zu generieren.

IP-Adapter für nicht qualifizierte Bilder

Da das Bild im Standard-Bildprozessor von Clip in der Mitte geschnitten ist, eignet sich IP-Adapter am besten für quadratische Bilder. Für die nicht quadratischen Bilder wird es die Informationen außerhalb des Zentrums verpassen. Sie können jedoch nur die Größe von 224x224 für nicht quadratische Bilder ändern. Der Vergleich lautet wie folgt:

Sdxl_1.0

ip_adapter_sdxl_demo : Bildvariationen mit Bildaufforderung.
ip_adapter_sdxl_controlnet_demo : strukturelle Erzeugung mit Bildaufforderung.

Der Vergleich von IP-Adapter_xl mit Reimagine XL wird wie folgt angezeigt:

sdxl_demo

Verbesserungen in der neuen Version (2023.9.8) :

Wechseln Sie zu Clip-Vit-H : Wir haben den neuen IP-Adapter mit OpenClip-VIT-H-14 anstelle von OpenClip-Vit-Bigg-14 trainiert. Obwohl Vit-Bigg viel größer als Vit-H ist, fanden unsere experimentellen Ergebnisse keinen signifikanten Unterschied und das kleinere Modell kann die Speicherverwendung in der Inferenzphase verringern.
Ein schnelleres und besseres Trainingsrezept : In unserer früheren Version erwies sich das Training direkt zu einer Auflösung von 1024x1024 als sehr ineffizient. In der neuen Version haben wir jedoch eine effektivere zweistufige Schulungsstrategie implementiert. Erstens führen wir eine Voraussetzung bei einer Auflösung von 512x512 durch. Dann setzen wir eine multiskalige Strategie zur Feinabstimmung an. (Vielleicht kann diese Trainingsstrategie auch verwendet werden, um das Training von ControlNet zu beschleunigen).

Wie man trainiert

Für das Training sollten Sie Accelerate und Ihren eigenen Datensatz zu einer JSON -Datei einbauen.

 accelerate launch --num_processes 8 --multi_gpu --mixed_precision "fp16" 
  tutorial_train.py 
  --pretrained_model_name_or_path="runwayml/stable-diffusion-v1-5/" 
  --image_encoder_path="{image_encoder_path}" 
  --data_json_file="{data.json}" 
  --data_root_path="{image_path}" 
  --mixed_precision="fp16" 
  --resolution=512 
  --train_batch_size=8 
  --dataloader_num_workers=4 
  --learning_rate=1e-04 
  --weight_decay=0.01 
  --output_dir="{output_dir}" 
  --save_steps=10000

Sobald das Training abgeschlossen ist, können Sie die Gewichte mit dem folgenden Code umwandeln:

 import torch
ckpt = "checkpoint-50000/pytorch_model.bin"
sd = torch . load ( ckpt , map_location = "cpu" )
image_proj_sd = {}
ip_sd = {}
for k in sd :
    if k . startswith ( "unet" ):
        pass
    elif k . startswith ( "image_proj_model" ):
        image_proj_sd [ k . replace ( "image_proj_model." , "" )] = sd [ k ]
    elif k . startswith ( "adapter_modules" ):
        ip_sd [ k . replace ( "adapter_modules." , "" )] = sd [ k ]

torch . save ({ "image_proj" : image_proj_sd , "ip_adapter" : ip_sd }, "ip_adapter.bin" )

Verwendung von Drittanbietern

IP-Adapter für Webui [Versionshinweise]
IP-Adapter für Comfyui [iPadapter-comfyui oder comfyui_ipadapter_plus]
IP-Adapter für Invokeai [Versionshinweise]
IP-Adaptter für Animatediff prompt reisen
Diffusers_ipadapter: Weitere Funktionen wie die Unterstützung mehrerer Eingangsbilder
Offizielle Diffusoren
Instantstyle: Stilübertragung basierend auf IP-Adapter

Haftungsausschluss

Dieses Projekt ist bestrebt, die Domäne der AI-gesteuerten Bildgenerierung positiv zu beeinflussen. Den Benutzern wird die Freiheit gewährt, Bilder mit diesem Tool zu erstellen. Es wird jedoch erwartet, dass sie die lokalen Gesetze einhalten und auf verantwortungsvolle Weise nutzen. Die Entwickler übernehmen keine Verantwortung für potenziellen Missbrauch durch Benutzer.

Zitat

Wenn Sie IP-Adapter für Ihre Forschung und Anwendungen nützlich finden, zitieren Sie bitte mit diesem Bibtex:

 @article { ye2023ip-adapter ,
  title = { IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models } ,
  author = { Ye, Hu and Zhang, Jun and Liu, Sibo and Han, Xiao and Yang, Wei } ,
  booktitle = { arXiv preprint arxiv:2308.06721 } ,
  year = { 2023 }
}