IP Adapter Download - IP Adapter исходный код скачать

IP Adapter

Другой исходный код

1.0.0

Скачать

Адаптер IP: текстовый адаптер для диффузионных моделей, совместимый с текстом, для моделей диффузии текста до изображения

Введение

Мы представляем адаптер IP, эффективный и легкий адаптер для достижения возможностей привлечения изображения для предварительно обученных моделей диффузии текста до изображения. Адаптер IP с параметрами только 22 метра может достичь сопоставимой или даже лучшей производительности с тонкой настройкой модели приглашения изображения. Адаптер IP может быть обобщен не только для других пользовательских моделей, настраиваемых из той же базовой модели, но и до управляемой генерации с использованием существующих управляемых инструментов. Кроме того, приглашение изображения также может хорошо работать с текстовой подсказкой для выполнения мультимодального генерации изображений.

архи

Выпускать

[2024/01/19] Добавьте IP-Adapter-Faceid-Portrait, можно найти больше информации.
[2024/01/17] Добавьте экспериментальную версию IP-Adapter-Faceid-Plusv2 для SDXL, здесь можно найти больше информации.
[2024/01/04] Добавьте экспериментальную версию IP-Adapter-Faceid для SDXL, здесь можно найти больше информации.
[2023/12/29] Добавьте экспериментальную версию IP-Adapter-Faceid-Plusv2, можно найти больше информации здесь.
[2023/12/27] Добавьте экспериментальную версию IP-Adapter-Faceid-Plus, здесь можно найти больше информации.
[2023/12/20] Добавьте экспериментальную версию IP-Adapter-Faceid, дополнительную информацию можно найти здесь.
[2023/11/22] IP-адаптер доступен в диффузорах благодаря команде диффузоров.
[2023/11/10] Добавьте обновленную версию IP-Adapter-Face. Демонстрация здесь.
[2023/11/05] Добавить демонстрацию текста к изображению с IP-адаптером и Kandinsky 2.2
[2023/11/02] Поддержка Safetensors
[2023/9/08] Обновите новую версию IP-адаптера с SDXL_1.0. Больше информации можно найти здесь.
[2023/9/05] IP-адаптер поддерживается в Webui и Comfyui (или comfyui_ipadapter_plus).
[2023/8/30] Добавьте IP-адаптер с изображением лица в качестве приглашения. Демонстрация здесь.
[2023/8/29] выпустите код обучения.
[2023/8/23] Добавьте код и модели IP-адаптера с мелкозернистыми функциями. Демонстрация здесь.
[2023/8/18] Добавьте код и модели для SDXL 1.0. Демонстрация здесь.
[2023/8/16] Мы выпускаем код и модели.

Установка

 # install latest diffusers
pip install diffusers==0.22.1

# install ip-adapter
pip install git+https://github.com/tencent-ailab/IP-Adapter.git

# download the models
cd IP-Adapter
git lfs install
git clone https://huggingface.co/h94/IP-Adapter
mv IP-Adapter/models models
mv IP-Adapter/sdxl_models sdxl_models

# then you can use the notebook

Скачать модели

Вы можете скачать модели отсюда. Чтобы запустить демонстрацию, вы также должны загрузить следующие модели:

Runwayml/Stable-Diffusion-V1-5
стабильность/SD-VAE-FT-MSE
SG161222/Realistic_vision_v4.0_Novae
Модели ControlNet

Как использовать

SD_1.5

IP_ADAPTER_DEMO : изменения изображения, изображение к изображению и внедрение с помощью приглашения изображения.

Вариации изображения

изображение к изображению

внедрение

IP_ADAPTER_CONTROLNET_DEMO , IP_ADAPTER_T2I-ADAPTER : Структурная генерация с помощью приглашения изображения.

structural_cond structural_cond2

IP_ADAPTER_MULTIMODAL_PROMPTS_DEMO : генерация с мультимодальными подсказками.

multi_prompts

IP_ADAPTER-PLUS_DEMO : демонстрация адаптера IP с мелкозернистыми функциями.

ip_adpter_plus_image_variations ip_adpter_plus_multi

ip_adapter-plus-face_demo : генерация с изображением лица в качестве приглашения.

ip_adpter_plus_face

Лучшая практика

Если вы используете только приглашение изображения, вы можете установить scale=1.0 и text_prompt="" (или некоторые общие текстовые подсказки, например, «Лучшее качество», вы также можете использовать любую отрицательную текстовую подсказку). Если вы снизите scale , могут быть сгенерированы более разнообразные изображения, но они могут не столь столь же соответствовать приглашению изображения.
Для мультимодальных подсказок вы можете настроить scale , чтобы получить наилучшие результаты. В большинстве случаев настройка scale=0.5 может получить хорошие результаты. Для версии SD 1.5 мы рекомендуем использовать модели сообщества для создания хороших изображений.

Адаптер IP для не-квадратных изображений

Поскольку изображение обрезано в процессоре изображения по умолчанию, IP-адаптер работает лучше всего для квадратных изображений. Для не квадратных изображений он пропустит информацию за пределами центра. Но вы можете просто изменить размер до 224x224 для не-квадратных изображений, сравнение выглядит следующим образом:

SDXL_1.0

IP_ADAPTER_SDXL_DEMO : изменения изображения с помощью приглашения изображения.
IP_ADAPTER_SDXL_CONTROLNET_DEMO : Структурная генерация с помощью приглашения изображения.

Сравнение IP-adapter_xl с Reimagine XL показано следующим образом:

sdxl_demo

Улучшения в новой версии (2023.9.8) :

Переключитесь на Clip-Vit-H : мы обучили новый IP-адаптер с OpenClip-Vit-H-14 вместо OpenClip-Vit-Bigg-14. Хотя Vit-Bigg намного больше, чем Vit-H, наши экспериментальные результаты не обнаружили значительного различия, и меньшая модель может снизить использование памяти на этапе вывода.
Более быстрый и лучший тренировочный рецепт : в нашей предыдущей версии, обучение непосредственно с разрешением 1024x1024 оказалось очень неэффективным. Однако в новой версии мы внедрили более эффективную двухэтапную стратегию обучения. Во-первых, мы выполняем предварительное обучение с разрешением 512x512. Затем мы используем многомасштабную стратегию для точной настройки. (Может быть, эта стратегия обучения также может быть использована для ускорения обучения ControlNet).

Как тренироваться

Для обучения вы должны установить Accelerate и сделать свой собственный набор данных в файл JSON.

 accelerate launch --num_processes 8 --multi_gpu --mixed_precision "fp16" 
  tutorial_train.py 
  --pretrained_model_name_or_path="runwayml/stable-diffusion-v1-5/" 
  --image_encoder_path="{image_encoder_path}" 
  --data_json_file="{data.json}" 
  --data_root_path="{image_path}" 
  --mixed_precision="fp16" 
  --resolution=512 
  --train_batch_size=8 
  --dataloader_num_workers=4 
  --learning_rate=1e-04 
  --weight_decay=0.01 
  --output_dir="{output_dir}" 
  --save_steps=10000

После завершения обучения вы можете преобразовать веса со следующим кодом:

 import torch
ckpt = "checkpoint-50000/pytorch_model.bin"
sd = torch . load ( ckpt , map_location = "cpu" )
image_proj_sd = {}
ip_sd = {}
for k in sd :
    if k . startswith ( "unet" ):
        pass
    elif k . startswith ( "image_proj_model" ):
        image_proj_sd [ k . replace ( "image_proj_model." , "" )] = sd [ k ]
    elif k . startswith ( "adapter_modules" ):
        ip_sd [ k . replace ( "adapter_modules." , "" )] = sd [ k ]

torch . save ({ "image_proj" : image_proj_sd , "ip_adapter" : ip_sd }, "ip_adapter.bin" )

Использование третьих сторон

IP-адаптер для WebUI [Выпуск Примечаний]
IP-адаптер для comfyui [iPadapter-comfyui или comfyui_ipadapter_plus]
Адаптер IP для Invokeai [Примечания по выпуску]
Адаптер IP для Animatediff
Diffusers_ipadapter: больше таких функций, как поддержка нескольких входных изображений
Официальные диффузоры
InstantStyle: перенос стиля на основе адаптера IP

Отказ от ответственности

Этот проект стремится положительно повлиять на область генерации изображений, управляемого AI. Пользователям предоставляется свобода создания изображений, используя этот инструмент, но они должны соблюдать местные законы и использовать их ответственным образом. Разработчики не несут никакой ответственности за потенциальное неправильное использование со стороны пользователей.

Цитирование

Если вы найдете Adapter IP-адаптер для ваших исследований и приложений, пожалуйста, цитируйте использование этого Bibtex:

 @article { ye2023ip-adapter ,
  title = { IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models } ,
  author = { Ye, Hu and Zhang, Jun and Liu, Sibo and Han, Xiao and Yang, Wei } ,
  booktitle = { arXiv preprint arxiv:2308.06721 } ,
  year = { 2023 }
}