CatVTON是一種簡單高效的虛擬試戴擴散模型,具有1) 輕量級網路(總共 899.06M 參數) 、 2) 參數高效訓練(49.57M 可訓練參數)和3) 簡化推理(< 8G VRAM,1024X768解析度) 。
更新
2024/10/17
:無口罩版? CatVTON 已發布,請在我們的線上演示中嘗試。
2024/10/13
:我們建立了一個倉庫Awesome-Try-On-Models ,重點關注 2023 年之後發布的基於圖像、視頻和 3D 的試穿模型,旨在提供對最新技術趨勢的見解。如果您有興趣,請隨時貢獻或給它一個?星星!
2024/08/13
:我們對 DensePose 和 SCHP 進行在地化以避免某些環境問題。
2024/08/10
:我們的? HuggingFace 空間現已上線!感謝ZeroGPU的資助!
2024/08/09
:提供評估程式碼來計算指標。
2024/07/27
:我們提供了在ComfyUI上部署 CatVTON 的程式碼和工作流程?
2024/07/24
:我們在 ArXiv 上的論文可用了?
2024/07/22
: 我們的應用程式程式碼已發布,在您的機器上部署並享受 CatVTON 吧? !
2024/07/21
:我們的推理代碼和權重?被釋放。
2024/07/11
: 我們的線上演示發布了?
建立 conda 環境並安裝需求
conda create -n catvton python==3.9.0 conda activate catvtoncd CatVTON-main # 或您的 CatVTON 專案路徑 dirpip install -rrequirements.txt
我們修改了主要程式碼,以便在 ComfyUI 上輕鬆部署 CatVTON。由於程式碼結構不相容,我們在Release中發布了這部分內容,其中包括ComfyUI的custom_nodes
下放置的程式碼以及我們的工作流程JSON檔案。
若要將 CatVTON 部署到您的 ComfyUI,請依照下列步驟操作:
安裝 CatVTON 和 ComfyUI 的所有要求,請參閱 CatVTON 安裝指南和 ComfyUI 安裝指南。
下載ComfyUI-CatVTON.zip
並將其解壓縮到 ComfyUI 專案下的custom_nodes
資料夾中(從 ComfyUI 克隆)。
運行 ComfyUI。
下載catvton_workflow.json
並將其拖到您的 ComfyUI 網頁中並享受?
Windows作業系統下的問題,請參考issue#8。
當您第一次執行CatVTON工作流程時,會自動下載權重文件,通常需要數十分鐘。
要在您的電腦上部署 CatVTON 的 Gradio 應用程序,請執行以下命令,檢查點將自動從 HuggingFace 下載。
CUDA_VISIBLE_DEVICES=0 python app.py --output_dir="資源/演示/輸出" --mixed_ precision="bf16" --allow_tf32
當使用bf16
精度時,產生解析度為1024x768
的結果僅需要大約8G
VRAM。
在進行推理之前,您需要下載 VITON-HD 或 DressCode 資料集。下載資料集後,資料夾結構應如下所示:
├── VITON-HD | ├── test_pairs_unpaired.txt │ ├── test | | ├── image │ │ │ ├── [000006_00.jpg | 000008_00.jpg | ...] │ │ ├── cloth │ │ │ ├── [000006_00.jpg | 000008_00.jpg | ...] │ │ ├── agnostic-mask │ │ │ ├── [000006_00_mask.png | 000008_00.png | ...] ...
├── DressCode | ├── test_pairs_paired.txt | ├── test_pairs_unpaired.txt │ ├── [dresses | lower_body | upper_body] | | ├── test_pairs_paired.txt | | ├── test_pairs_unpaired.txt │ │ ├── images │ │ │ ├── [013563_0.jpg | 013563_1.jpg | 013564_0.jpg | 013564_1.jpg | ...] │ │ ├── agnostic_masks │ │ │ ├── [013563_0.png| 013564_0.png | ...] ...
對於 DressCode 資料集,我們提供腳本來預處理不可知面具,執行以下命令:
CUDA_VISIBLE_DEVICES=0 python preprocess_agnostic_mask.py --data_root_path
若要在 DressCode 或 VITON-HD 資料集上執行推理,請執行以下命令,檢查點將自動從 HuggingFace 下載。
CUDA_VISIBLE_DEVICES=0 python 推理.py --dataset [著裝代碼 |維通HD] --data_root_path <路徑> --output_dir <路徑> --dataloader_num_workers 8 --batch_size 8 --seed 555 --mixed_ precision [否 | FP16 | BF16] --allow_tf32 --重畫 --評估對
獲得推理結果後,使用以下命令計算指標:
CUDA_VISIBLE_DEVICES=0 python eval.py --gt_folder <您的gt_圖像資料夾的路徑> --pred_folder <您的預測圖像資料夾的路徑> --paired --batch_size=16 --num_workers=16
--gt_folder
和--pred_folder
應該是僅包含圖像的資料夾。
若要評估配對設定中的結果,請使用--paired
;對於未配對的設置,只需忽略它即可。
--batch_size
和--num_workers
應根據您的機器進行調整。
我們的程式碼是在Diffusers的基礎上修改的。我們採用穩定擴散 v1.5 修復作為基礎模型。我們使用 SCHP 和 DensePose 在 Gradio 應用程式和 ComfyUI 工作流程中自動產生蒙版。感謝所有貢獻者!
所有資料(包括代碼、檢查點和演示)均根據 Creative Commons BY-NC-SA 4.0 授權提供。您可以出於非商業目的自由複製、重新分發、重新混合、轉換和構建項目,只要您給予適當的信用並在同一許可證下分發您的貢獻。
@misc{chong2024catvtonconcatenationneedvirtual, title={CatVTON:串聯是擴散模型虛擬試穿所需的全部}, 作者={鄭衝、曉東、李浩翔、張世岳、張文清、張旭傑、趙漢清、梁曉丹},年份={2024},eprint={2407.15886},archivePrefix={arXiv},primaryClass={cs .CV},url= {https://arxiv.org/abs/2407.15886}, }