IP Adapter 다운로드 - IP Adapter 소스 코드 다운로드

IP Adapter

기타 소스코드

1.0.0

다운로드

IP-Adapter : 텍스트-이미지 확산 모델을위한 텍스트 호환 이미지 프롬프트 어댑터

소개

우리는 미리 훈련 된 텍스트-이미지 확산 모델에 대한 이미지 프롬프트 기능을 달성하기 위해 효과적이고 경량 어댑터 인 IP-Adapter를 제시합니다. 22m 파라미터 만있는 IP 어드데이터는 미세 조정 된 이미지 프롬프트 모델과 비슷하거나 더 나은 성능을 달성 할 수 있습니다. IP 어래지는 동일한 기본 모델에서 미세 조정 된 다른 사용자 정의 모델뿐만 아니라 기존 제어 가능한 도구를 사용하여 제어 가능한 생성으로 일반화 할 수 있습니다. 또한 이미지 프롬프트는 텍스트 프롬프트와 함께 잘 작동하여 멀티 모달 이미지 생성을 달성 할 수 있습니다.

풀어 주다

[2024/01/19] IP-Adapter-Faceid-Portrait 추가, 자세한 내용은 여기를 참조하십시오.
[2024/01/17] SDXL을 위해 IP-Adapter-Faceid-Plusv2의 실험 버전을 추가하면 자세한 내용은 여기에서 확인할 수 있습니다.
[2024/01/04] SDXL 용 IP-Adapter-Faceid의 실험 버전을 추가하면 자세한 내용은 여기를 참조하십시오.
[2023/12/29] IP-Adapter-Faceid-Plusv2의 실험 버전을 추가하면 자세한 내용은 여기에서 찾을 수 있습니다.
[2023/12/27] IP-Adapter-Faceid-Plus의 실험 버전을 추가하면 자세한 내용은 여기에서 찾을 수 있습니다.
[2023/12/20] IP-Adapter-Faceid의 실험 버전을 추가하면 자세한 내용은 여기를 참조하십시오.
[2023/11/22] IP-Adapter는 디퓨저 팀 덕분에 디퓨저에서 사용할 수 있습니다.
[2023/11/10] 업데이트 된 버전의 IP-Adapter-Face를 추가하십시오. 데모가 여기 있습니다.
[2023/11/05] IP-Adapter 및 Kandinsky 2.2 이전에 텍스트-이미지 데모 추가
[2023/11/02] SAFETENSORS 지원
[2023/9/08] SDXL_1.0으로 새 버전의 IP-Adapter를 업데이트하십시오. 자세한 내용은 여기를 참조하십시오.
[2023/9/05] IP-Adapter는 webui 및 comfyui (또는 comfyui_ipadapter_plus)에서 지원됩니다.
[2023/8/30] 얼굴 이미지가있는 IP 자료를 프롬프트로 추가하십시오. 데모가 여기 있습니다.
[2023/8/29] 훈련 코드 릴리스.
[2023/8/23] 세분화 된 기능을 갖춘 IP 어래지 어의 코드 및 모델 추가. 데모가 여기 있습니다.
[2023/8/18] SDXL 1.0에 대한 코드 및 모델 추가. 데모가 여기 있습니다.
[2023/8/16] 코드와 모델을 릴리스합니다.

설치

 # install latest diffusers
pip install diffusers==0.22.1

# install ip-adapter
pip install git+https://github.com/tencent-ailab/IP-Adapter.git

# download the models
cd IP-Adapter
git lfs install
git clone https://huggingface.co/h94/IP-Adapter
mv IP-Adapter/models models
mv IP-Adapter/sdxl_models sdxl_models

# then you can use the notebook

모델 다운로드

여기에서 모델을 다운로드 할 수 있습니다. 데모를 실행하려면 다음 모델도 다운로드해야합니다.

Runwayml/안정화 -V1-5
안정성이/SD-VAE-FT-MSE
sg161222/realistic_vision_v4.0_novae
Controlnet 모델

사용 방법

SD_1.5

IP_ADAPTER_DEMO : 이미지 변형, 이미지 간 이미지 및 이미지 프롬프트가 부착됩니다.

이미지 변형

이미지 대 이미지

IP_ADAPTER_CONTROLNET_DEMO , IP_ADAPTER_T2I-ADAPTER : 이미지 프롬프트가있는 구조 생성.

구조 _cond 구조 _cond2

IP_ADAPTER_MULTIMODAL_PROMPTS_DEMO : 멀티 모달 프롬프트 생성.

multi_prompts

IP_ADAPTER-PLUS_DEMO : 세분화 된 기능을 갖춘 IP 자체의 데모.

ip_adpter_plus_image_variations ip_adpter_plus_multi

IP_ADAPTER-PLUS-FACE_DEMO : 얼굴 이미지를 프롬프트로 생성합니다.

ip_adpter_plus_face

모범 사례

이미지 프롬프트 만 사용하는 경우 scale=1.0 및 text_prompt="" (또는 일부 일반 텍스트 프롬프트, 예를 들어 "최상의 품질"을 설정할 수 있습니다). scale 낮추면 더 다양한 이미지를 생성 할 수 있지만 이미지 프롬프트와 일치하지 않을 수 있습니다.
멀티 모달 프롬프트의 경우 scale 조정하여 최상의 결과를 얻을 수 있습니다. 대부분의 경우 scale=0.5 설정하면 좋은 결과를 얻을 수 있습니다. SD 1.5 버전의 경우 커뮤니티 모델을 사용하여 좋은 이미지를 생성하는 것이 좋습니다.

비 선명 이미지의 IP 어드카터

클립의 기본 이미지 프로세서에서 이미지가 중앙에 자르기 때문에 IP-Adapter는 정사각형 이미지에 가장 적합합니다. 비 광장 이미지의 경우 중앙 외부의 정보를 놓칠 것입니다. 그러나 비-제곱 이미지의 경우 224x224로 크기를 조정할 수 있습니다. 비교는 다음과 같습니다.

SDXL_1.0

IP_ADAPTER_SDXL_DEMO : 이미지 프롬프트가있는 이미지 변형.
IP_ADAPTER_SDXL_CONTROLNET_DEMO : 이미지 프롬프트가있는 구조 생성.

Reimagine XL과 IP-Adapter_XL 을 비교하면 다음과 같습니다.

sdxl_demo

새 버전의 개선 (2023.9.8) :

Clip-Vit-H로 전환 : OpenClip-vit-Bigg-14 대신 OpenClip-Vit-H-14로 새로운 IP 자산을 교육했습니다. Vit-Bigg는 VIT-H보다 훨씬 크지 만 실험 결과는 유의 한 차이를 찾지 못했고 작은 모델은 추론 단계에서 메모리 사용량을 줄일 수 있습니다.
더 빠르고 더 나은 훈련 레시피 : 이전 버전에서 1024x1024의 해상도로 직접 훈련하는 것은 비효율적 인 것으로 판명되었습니다. 그러나 새 버전에서는보다 효과적인 2 단계 교육 전략을 구현했습니다. 첫째, 우리는 512x512의 해상도에서 사전 훈련을 수행합니다. 그런 다음 미세 조정을위한 다중 규모 전략을 사용합니다. (아마도이 교육 전략을 사용하여 Controlnet의 교육 속도를 높일 수 있습니다).

훈련하는 방법

교육을 위해 Accelerate를 설치하고 자신의 데이터 세트를 JSON 파일로 만들어야합니다.

 accelerate launch --num_processes 8 --multi_gpu --mixed_precision "fp16" 
  tutorial_train.py 
  --pretrained_model_name_or_path="runwayml/stable-diffusion-v1-5/" 
  --image_encoder_path="{image_encoder_path}" 
  --data_json_file="{data.json}" 
  --data_root_path="{image_path}" 
  --mixed_precision="fp16" 
  --resolution=512 
  --train_batch_size=8 
  --dataloader_num_workers=4 
  --learning_rate=1e-04 
  --weight_decay=0.01 
  --output_dir="{output_dir}" 
  --save_steps=10000

훈련이 완료되면 다음 코드로 가중치를 변환 할 수 있습니다.

 import torch
ckpt = "checkpoint-50000/pytorch_model.bin"
sd = torch . load ( ckpt , map_location = "cpu" )
image_proj_sd = {}
ip_sd = {}
for k in sd :
    if k . startswith ( "unet" ):
        pass
    elif k . startswith ( "image_proj_model" ):
        image_proj_sd [ k . replace ( "image_proj_model." , "" )] = sd [ k ]
    elif k . startswith ( "adapter_modules" ):
        ip_sd [ k . replace ( "adapter_modules." , "" )] = sd [ k ]

torch . save ({ "image_proj" : image_proj_sd , "ip_adapter" : ip_sd }, "ip_adapter.bin" )

타사 사용

webui 용 IP 어택터 [릴리스 노트]
comfyui의 IP-Adapter [iPadapter-comfyui 또는 comfyui_ipadapter_plus]
invokeai의 IP 어택터 [릴리스 노트]
애니메이터 프롬프트 여행을위한 IP 어드카터
diffusers_ipadapter : 여러 입력 이미지를 지원하는 것과 같은 더 많은 기능
공식 디퓨저
InstantStyle : IP 어래지를 기반으로 한 스타일 전송

부인 성명

이 프로젝트는 AI 중심 이미지 생성 도메인에 긍정적 인 영향을 미치기 위해 노력합니다. 사용자는이 도구를 사용하여 이미지를 자유롭게 만들 수 있지만 현지 법률을 준수하여 책임있는 방식으로 활용해야합니다. 개발자는 사용자의 잠재적 오용에 대한 책임을지지 않습니다.

소환

연구 및 응용 프로그램에 유용한 IP 어래지가 발견되면이 Bibtex를 사용하여 인용하십시오.

 @article { ye2023ip-adapter ,
  title = { IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models } ,
  author = { Ye, Hu and Zhang, Jun and Liu, Sibo and Han, Xiao and Yang, Wei } ,
  booktitle = { arXiv preprint arxiv:2308.06721 } ,
  year = { 2023 }
}