CatVTON adalah model difusi uji coba virtual yang sederhana dan efisien dengan 1) Jaringan Ringan (total 899,06 juta parameter) , 2) Pelatihan Efisien Parameter (49,57 juta parameter dapat dilatih) dan 3) Inferensi Sederhana (<8G VRAM untuk resolusi 1024X768) .
Pembaruan
2024/10/17
: Versi bebas masker ? CatVTON telah dirilis dan silakan mencobanya di Demo Online kami.
2024/10/13
: Kami telah membuat repo Awesome-Try-On-Models yang berfokus pada model uji coba berbasis gambar, video, dan 3D yang diterbitkan setelah tahun 2023, yang bertujuan untuk memberikan wawasan tentang tren teknologi terkini. Jika Anda tertarik, silakan berkontribusi atau memberikannya? bintang!
2024/08/13
: Kami melokalkan DensePose & SCHP untuk menghindari masalah lingkungan tertentu.
2024/08/10
: Kami? HuggingFace Space tersedia sekarang! Terima kasih atas hibah dari ZeroGPU !
2024/08/09
: Kode evaluasi disediakan untuk menghitung metrik.
2024/07/27
: Kami menyediakan kode dan alur kerja untuk menerapkan CatVTON di ComfyUI ?.
2024/07/24
: Makalah kami tentang ArXiv tersedia?!
2024/07/22
: Kode Aplikasi kami dirilis, terapkan dan nikmati CatVTON di mesin Anda?!
2024/07/21
: Kode Inferensi dan Bobot Kami? dilepaskan.
2024/07/11
: Demo Online kami dirilis?.
Buat lingkungan conda & Instal persyaratan
conda buat -n catvton python==3.9.0 conda aktifkan catvtoncd CatVTON-main # atau jalur Anda ke proyek CatVTON dirpip install -r requiremen.txt
Kami telah memodifikasi kode utama untuk memudahkan penerapan CatVTON di ComfyUI. Karena ketidakcocokan struktur kode, kami telah merilis bagian ini di Rilis, yang mencakup kode yang ditempatkan di bawah custom_nodes
dari ComfyUI dan file JSON alur kerja kami.
Untuk menerapkan CatVTON ke ComfyUI Anda, ikuti langkah-langkah berikut:
Instal semua persyaratan untuk CatVTON dan ComfyUI, lihat Panduan Instalasi untuk CatVTON dan Panduan Instalasi untuk ComfyUI.
Unduh ComfyUI-CatVTON.zip
dan unzip di folder custom_nodes
di bawah proyek ComfyUI Anda (klon dari ComfyUI).
Jalankan ComfyUI.
Unduh catvton_workflow.json
dan seret ke halaman web ComfyUI Anda dan nikmatilah?!
Masalah pada OS Windows, silakan merujuk ke masalah#8.
Saat Anda menjalankan alur kerja CatVTON untuk pertama kalinya, file bobot akan diunduh secara otomatis, biasanya memerlukan waktu puluhan menit.
Untuk menerapkan Aplikasi Gradio untuk CatVTON di mesin Anda, jalankan perintah berikut, dan pos pemeriksaan akan diunduh secara otomatis dari HuggingFace.
CUDA_VISIBLE_DEVICES=0 aplikasi python.py --output_dir="sumber daya/demo/output" --mixed_precision="bf16" --allow_tf32
Bila menggunakan presisi bf16
, menghasilkan hasil dengan resolusi 1024x768
hanya membutuhkan VRAM sekitar 8G
.
Sebelum melakukan inferensi, Anda perlu mengunduh kumpulan data VITON-HD atau DressCode. Setelah kumpulan data diunduh, struktur folder akan terlihat seperti ini:
├── VITON-HD | ├── test_pairs_unpaired.txt │ ├── test | | ├── image │ │ │ ├── [000006_00.jpg | 000008_00.jpg | ...] │ │ ├── cloth │ │ │ ├── [000006_00.jpg | 000008_00.jpg | ...] │ │ ├── agnostic-mask │ │ │ ├── [000006_00_mask.png | 000008_00.png | ...] ...
├── DressCode | ├── test_pairs_paired.txt | ├── test_pairs_unpaired.txt │ ├── [dresses | lower_body | upper_body] | | ├── test_pairs_paired.txt | | ├── test_pairs_unpaired.txt │ │ ├── images │ │ │ ├── [013563_0.jpg | 013563_1.jpg | 013564_0.jpg | 013564_1.jpg | ...] │ │ ├── agnostic_masks │ │ │ ├── [013563_0.png| 013564_0.png | ...] ...
Untuk kumpulan data DressCode, kami menyediakan skrip untuk masker agnostik yang telah diproses sebelumnya, jalankan perintah berikut:
CUDA_VISIBLE_DEVICES=0 python preprocess_agnostic_mask.py --data_root_path
Untuk menjalankan inferensi pada kumpulan data DressCode atau VITON-HD, jalankan perintah berikut, pos pemeriksaan akan diunduh secara otomatis dari HuggingFace.
CUDA_VISIBLE_DEVICES=0 inferensi python.py --kumpulan data [kode pakaian | vitonhd] --data_root_path--output_dir --dataloader_num_workers 8 --batch_size 8 --seed 555 --mixed_precision [tidak | fp16 | bf16] --izinkan_tf32 --mengecat ulang --eval_pair
Setelah mendapatkan hasil inferensi, hitung metriknya menggunakan perintah berikut:
CUDA_VISIBLE_DEVICES=0 python eval.py --gt_folder--pred_folder --berpasangan --batch_size=16 --num_workers=16
--gt_folder
dan --pred_folder
harus berupa folder yang hanya berisi gambar .
Untuk mengevaluasi hasil dalam pengaturan berpasangan, gunakan --paired
; untuk pengaturan yang tidak berpasangan, hilangkan saja.
--batch_size
dan --num_workers
harus disesuaikan berdasarkan mesin Anda.
Kode kami dimodifikasi berdasarkan Diffusers. Kami mengadopsi lukisan Difusi Stabil v1.5 sebagai model dasar. Kami menggunakan SCHP dan DensePose untuk secara otomatis menghasilkan masker di Aplikasi Gradio dan alur kerja ComfyUI kami. Terima kasih kepada semua kontributor!
Semua materi, termasuk kode, pos pemeriksaan, dan demo, tersedia di bawah lisensi Creative Commons BY-NC-SA 4.0. Anda bebas menyalin, mendistribusikan ulang, mencampur ulang, mengubah, dan mengembangkan proyek ini untuk tujuan non-komersial, selama Anda memberikan kredit yang sesuai dan mendistribusikan kontribusi Anda di bawah lisensi yang sama.
@misc{chong2024catvtonconcatenationneedvirtual, title={CatVTON: Semua yang Anda Butuhkan untuk Uji Coba Virtual dengan Model Difusi}, author={Zheng Chong dan Xiao Dong dan Haoxiang Li dan Shiyue Zhang dan Wenqing Zhang dan Xujie Zhang dan Hanqing Zhao dan Xiaodan Liang}, year={2024}, eprint={2407.15886}, archivePrefix={arXiv}, primaryClass={cs .CV}, url={https://arxiv.org/abs/2407.15886}, }