CatVTON 은 1) 경량 네트워크(총 899.06M 매개변수) , 2) 매개변수 효율적인 훈련(49.57M 매개변수 훈련 가능) 및 3) 단순화된 추론(1024X768 해상도의 경우 < 8G VRAM)을 갖춘 간단하고 효율적인 가상 시도 확산 모델입니다.
업데이트
2024/10/17
: 마스크 프리 버전 ? CatVTON이 출시되었습니다. 온라인 데모 에서 사용해 보세요.
2024/10/13
: 최신 기술 동향에 대한 통찰력을 제공하기 위해 2023년 이후 출시된 이미지, 비디오 및 3D 기반 시착 모델에 중점을 둔 Awesome-Try-On-Models 저장소를 구축했습니다. 관심이 있으시면 언제든지 기여하거나 ? 별!
2024/08/13
: 특정 환경 문제를 피하기 위해 DensePose 및 SCHP를 현지화합니다.
2024/08/10
: 우리의 ? HuggingFace Space를 지금 만나보세요! ZeroGPU 의 보조금에 감사드립니다!
2024/08/09
: 지표를 계산하기 위한 평가 코드가 제공됩니다.
2024/07/27
: ComfyUI ?에 CatVTON을 배포하기 위한 코드와 워크플로를 제공합니다.
2024/07/24
: ArXiv에 대한 논문 이 공개되었습니다!
2024/07/22
: 앱 코드가 출시되었습니다. 귀하의 기계에 CatVTON을 배포하고 즐기세요?!
2024/07/21
: 추론 코드 및 가중치 ? 출시됩니다.
2024/07/11
: 온라인 데모가 출시되었습니다 ?.
Conda 환경 생성 및 요구 사항 설치
conda create -n catvton python==3.9.0 conda 활성화 catvtoncd CatVTON-main # 또는 CatVTON 프로젝트에 대한 경로 dirpip install -r 요구 사항.txt
ComfyUI에 CatVTON을 쉽게 배포할 수 있도록 기본 코드를 수정했습니다. 코드 구조의 비호환성으로 인해 우리는 ComfyUI의 custom_nodes
및 워크플로 JSON 파일에 배치된 코드를 포함하는 이 부분을 릴리스에 공개했습니다.
CatVTON을 ComfyUI에 배포하려면 다음 단계를 따르세요.
CatVTON 및 ComfyUI에 대한 모든 요구 사항을 설치하십시오. CatVTON 설치 안내서 및 ComfyUI 설치 안내서를 참조하십시오.
ComfyUI-CatVTON.zip
다운로드하고 ComfyUI 프로젝트(ComfyUI에서 복제) 아래의 custom_nodes
폴더에 압축을 풉니다.
ComfyUI를 실행하세요.
catvton_workflow.json
다운로드하여 ComfyUI 웹페이지로 끌어서 즐기세요?!
Windows OS 관련 문제는 이슈#8을 참조하세요.
CatVTON 워크플로를 처음 실행하면 가중치 파일이 자동으로 다운로드되며 일반적으로 수십 분이 소요됩니다.
CatVTON용 Gradio 앱을 컴퓨터에 배포하려면 다음 명령을 실행하세요. 그러면 HuggingFace에서 체크포인트가 자동으로 다운로드됩니다.
CUDA_VISIBLE_DEVICES=0 파이썬 app.py --output_dir="리소스/데모/출력" --mixed_precision="bf16" --allow_tf32
bf16
정밀도를 사용하는 경우 1024x768
해상도로 결과를 생성하려면 약 8G
VRAM만 필요합니다.
추론하기 전에 VITON-HD 또는 DressCode 데이터 세트를 다운로드해야 합니다. 데이터세트가 다운로드되면 폴더 구조는 다음과 같아야 합니다.
├── VITON-HD | ├── test_pairs_unpaired.txt │ ├── test | | ├── image │ │ │ ├── [000006_00.jpg | 000008_00.jpg | ...] │ │ ├── cloth │ │ │ ├── [000006_00.jpg | 000008_00.jpg | ...] │ │ ├── agnostic-mask │ │ │ ├── [000006_00_mask.png | 000008_00.png | ...] ...
├── DressCode | ├── test_pairs_paired.txt | ├── test_pairs_unpaired.txt │ ├── [dresses | lower_body | upper_body] | | ├── test_pairs_paired.txt | | ├── test_pairs_unpaired.txt │ │ ├── images │ │ │ ├── [013563_0.jpg | 013563_1.jpg | 013564_0.jpg | 013564_1.jpg | ...] │ │ ├── agnostic_masks │ │ │ ├── [013563_0.png| 013564_0.png | ...] ...
DressCode 데이터 세트의 경우 사전 처리된 불가지론 마스크에 대한 스크립트를 제공하고 다음 명령을 실행합니다.
CUDA_VISIBLE_DEVICES=0 파이썬 preprocess_agnostic_mask.py --data_root_path
DressCode 또는 VITON-HD 데이터세트에 대한 추론을 실행하려면 다음 명령을 실행하세요. 체크포인트는 HuggingFace에서 자동으로 다운로드됩니다.
CUDA_VISIBLE_DEVICES=0 파이썬 inference.py --dataset [드레스코드 | vitonhd] --data_root_path <경로> --output_dir <경로> --dataloader_num_workers 8 --batch_size 8 --seed 555 --mixed_precision [no | fp16 | bf16] --allow_tf32 --다시 칠하기 --eval_pair
추론 결과를 얻은 후 다음 명령을 사용하여 측정항목을 계산합니다.
CUDA_VISIBLE_DEVICES=0 파이썬 eval.py --gt_folder--pred_folder --paired --batch_size=16 --num_workers=16
--gt_folder
및 --pred_folder
이미지만 포함하는 폴더여야 합니다.
쌍을 이루는 설정에서 결과를 평가하려면 --paired
사용하세요. 페어링되지 않은 설정의 경우 간단히 생략하세요.
--batch_size
및 --num_workers
컴퓨터에 따라 조정되어야 합니다.
우리의 코드는 Diffusers를 기반으로 수정되었습니다. 우리는 Stable Diffusion v1.5 inpainting을 기본 모델로 채택했습니다. 우리는 SCHP와 DensePose를 사용하여 Gradio 앱과 ComfyUI 워크플로에서 마스크를 자동으로 생성합니다. 모든 기여자에게 감사드립니다!
코드, 체크포인트, 데모를 포함한 모든 자료는 Creative Commons BY-NC-SA 4.0 라이선스에 따라 제공됩니다. 동일한 라이선스에 따라 적절한 출처를 표시하고 기여물을 배포하는 한 비상업적 목적으로 프로젝트를 자유롭게 복사, 재배포, 리믹스, 변형 및 구축할 수 있습니다.
@misc{chong2024catvtonconcatenationneedvirtual, title={CatVTON: 확산 모델을 사용한 가상 시험에 필요한 것은 연결뿐입니다}, 작성자={Zheng Chong 및 Xiao Dong 및 Haoxiang Li 및 Shiyue Zhang 및 Wenqing Zhang 및 Xujie Zhang 및 Hanqing Zhao 및 Xiaodan Liang}, 연도={2024}, eprint={2407.15886}, archivePrefix={arXiv}, PrimaryClass={cs .CV}, URL={https://arxiv.org/abs/2407.15886}, }