IP Adapterのダウンロード-IP IP Adapterソースコードのダウンロード

IP Adapter

その他のソースコード

1.0.0

ダウンロード

IP-Adapter：テキストから画像間拡散モデルのテキスト互換画像プロンプトアダプター

導入

事前に訓練されたテキストから画像への拡散モデルの画像プロンプト機能を実現するための効果的で軽量のアダプターであるIP-Adapterを提示します。 22mパラメーターのみを備えたIPアダプターは、微調整された画像プロンプトモデルに匹敵するパフォーマンスまたはさらに優れたパフォーマンスを実現できます。 IP-Adapterは、同じベースモデルから微調整された他のカスタムモデルだけでなく、既存の制御可能なツールを使用した制御可能な生成にも一般化できます。さらに、画像プロンプトは、マルチモーダル画像生成を達成するために、テキストプロンプトともうまく連携することもできます。

アーチ

リリース

[2024/01/19] IP-Adapter-FaceId-Portraitを追加すると、詳細についてはこちらをご覧ください。
[2024/01/17] SDXLにIP-Adapter-FaceId-Plusv2の実験バージョンを追加すると、詳細についてはこちらをご覧ください。
[2024/01/04] SDXL用のIP-Adapter-FaceIDの実験バージョンを追加すると、詳細についてはこちらをご覧ください。
[2023/12/29] IP-Adapter-Faceid-Plusv2の実験バージョンを追加すると、詳細についてはこちらをご覧ください。
[2023/12/27] IP-Adapter-FaceID-Plusの実験バージョンを追加すると、詳細についてはこちらをご覧ください。
[2023/12/20] IP-Adapter-FaceIDの実験バージョンを追加すると、詳細についてはこちらをご覧ください。
[2023/11/22] IP-Adapterは、DiffusersチームのおかげでDiffusersで利用できます。
[2023/11/10] IP-Adapter-Faceの更新バージョンを追加します。デモはこちらです。
[2023/11/05] IP-AdapterとKandinsky 2.2を使用してText-to-Imageデモを追加
[2023/11/02]サポートセーフテンサー
[2023/9/08] SDXL_1.0でIP-Adapterの新しいバージョンを更新します。詳細については、こちらをご覧ください。
[2023/9/05] IP-AdapterはWebUIおよびComfyui（またはcomfyui_ipadapter_plus）でサポートされています。
[2023/8/30] Face ImageをプロンプトとしてIP-Adapterを追加します。デモはこちらです。
[2023/8/29]トレーニングコードをリリースします。
[2023/8/23]細かい機能を備えたIPアダプターのコードとモデルを追加します。デモはこちらです。
[2023/8/18] SDXL 1.0のコードとモデルを追加します。デモはこちらです。
[2023/8/16]コードとモデルをリリースします。

インストール

 # install latest diffusers
pip install diffusers==0.22.1

# install ip-adapter
pip install git+https://github.com/tencent-ailab/IP-Adapter.git

# download the models
cd IP-Adapter
git lfs install
git clone https://huggingface.co/h94/IP-Adapter
mv IP-Adapter/models models
mv IP-Adapter/sdxl_models sdxl_models

# then you can use the notebook

モデルをダウンロードします

ここからモデルをダウンロードできます。デモを実行するには、次のモデルもダウンロードする必要があります。

runwayml/stable-diffusion-v1-5
stabilityai/sd-vae-ft-mse
sg161222/realistic_vision_v4.0_novae
ControlNetモデル

使い方

SD_1.5

IP_ADAPTER_DEMO ：画像のバリエーション、画像から画像へ、およびイメージプロンプトを使用したインデーティング。

画像のバリエーション

画像から画像へ

インパインティング

IP_ADAPTER_CONTROLNET_DEMO 、 IP_ADAPTER_T2I-ADAPTER ：画像プロンプト付きの構造生成。

structural_cond structural_cond2

IP_ADAPTER_MULTIMODAL_PROMPTS_DEMO ：マルチモーダルプロンプトを使用した生成。

multi_prompts

IP_ADAPTER-PLUS_DEMO ：微調整された機能を備えたIPアダプターのデモ。

ip_adpter_plus_image_variations ip_adpter_plus_multi

IP_ADAPTER-PLUS-FACE_DEMO ：Face Imageをプロンプトとして生成。

ip_adpter_plus_face

ベストプラクティス

画像プロンプトのみを使用する場合は、 scale=1.0およびtext_prompt="" （または「最高品質」などの一般的なテキストプロンプトを設定できます。ネガティブテキストプロンプトを使用することもできます）。 scaleを下げると、より多様な画像を生成できますが、画像プロンプトとそれほど一致しない場合があります。
マルチモーダルプロンプトの場合、 scaleを調整して最良の結果を得ることができます。ほとんどの場合、 scale=0.5の設定は良い結果を得ることができます。 SD 1.5のバージョンについては、コミュニティモデルを使用して良い画像を生成することをお勧めします。

非二乗画像用のIPアダプター

画像はClipのデフォルト画像プロセッサで中央にトリミングされているため、IP-Adapterは正方形の画像に最適です。非正方形の画像については、センターの外側の情報を見逃します。ただし、非二乗画像の場合は224x224にサイズを変更できます。比較は次のとおりです。

SDXL_1.0

IP_ADAPTER_SDXL_DEMO ：画像プロンプト付きの画像バリエーション。
ip_adapter_sdxl_controlnet_demo ：画像プロンプト付きの構造生成。

IP-Adapter_xlとReimagine XLの比較は、次のように示されています。

SDXL_DEMO

新しいバージョンの改善（2023.9.8） ：

Clip-vit-Hに切り替えます：OpenClip-vit-bigg-14の代わりに、OpenClip-vit-H-14で新しいIP-Adapterをトレーニングしました。 Vit-biggはVIT-Hよりもはるかに大きいですが、実験結果は有意な違いを見つけられず、より小さなモデルでは、推論段階でのメモリの使用量を減らすことができます。
より高速でより良いトレーニングレシピ：以前のバージョンでは、1024x1024の解像度で直接トレーニングすることは非常に非効率的であることが証明されました。ただし、新しいバージョンでは、より効果的な2段階のトレーニング戦略を実装しました。まず、512x512の解像度で事前トレーニングを実行します。次に、微調整のためにマルチスケール戦略を採用します。（このトレーニング戦略は、ControlNetのトレーニングをスピードアップするためにも使用できます）。

トレーニング方法

トレーニングについては、Accelerateをインストールし、JSONファイルに独自のデータセットを作成する必要があります。

 accelerate launch --num_processes 8 --multi_gpu --mixed_precision "fp16" 
  tutorial_train.py 
  --pretrained_model_name_or_path="runwayml/stable-diffusion-v1-5/" 
  --image_encoder_path="{image_encoder_path}" 
  --data_json_file="{data.json}" 
  --data_root_path="{image_path}" 
  --mixed_precision="fp16" 
  --resolution=512 
  --train_batch_size=8 
  --dataloader_num_workers=4 
  --learning_rate=1e-04 
  --weight_decay=0.01 
  --output_dir="{output_dir}" 
  --save_steps=10000

トレーニングが完了したら、次のコードでウェイトを変換できます。

 import torch
ckpt = "checkpoint-50000/pytorch_model.bin"
sd = torch . load ( ckpt , map_location = "cpu" )
image_proj_sd = {}
ip_sd = {}
for k in sd :
    if k . startswith ( "unet" ):
        pass
    elif k . startswith ( "image_proj_model" ):
        image_proj_sd [ k . replace ( "image_proj_model." , "" )] = sd [ k ]
    elif k . startswith ( "adapter_modules" ):
        ip_sd [ k . replace ( "adapter_modules." , "" )] = sd [ k ]

torch . save ({ "image_proj" : image_proj_sd , "ip_adapter" : ip_sd }, "ip_adapter.bin" )

サードパーティの使用

WebUIのIPアダプター[リリースノート]
comfyuiのip-adapter [iPadapter-comfyuiまたはcomfyui_ipadapter_plus]
InvokeaiのIP-Adapter [リリースノート]
Animatediffプロンプト旅行用のIP-Adapter
diffusers_ipadapter：複数の入力画像のサポートなど、その他の機能
公式ディフューザー
InstantStyle：IP-Adapterに基づくスタイル転送

免責事項

このプロジェクトは、AI駆動型の画像生成のドメインにプラスの影響を与えるよう努めています。ユーザーには、このツールを使用して画像を作成する自由が認められますが、地元の法律に準拠し、責任ある方法でそれを活用することが期待されています。開発者は、ユーザーによる潜在的な誤用について一切責任を負いません。

引用

IP-Adapterが研究やアプリケーションに役立つと思われる場合は、このbibtexを使用して引用してください。

 @article { ye2023ip-adapter ,
  title = { IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models } ,
  author = { Ye, Hu and Zhang, Jun and Liu, Sibo and Han, Xiao and Yang, Wei } ,
  booktitle = { arXiv preprint arxiv:2308.06721 } ,
  year = { 2023 }
}