CatVTON هو نموذج نشر تجريبي بسيط وفعال مع 1) شبكة خفيفة الوزن (899.06 مليون معلمة إجمالاً) و 2) تدريب فعال للمعلمات (49.57 مليون معلمة قابلة للتدريب) و 3) استدلال مبسط (<8G VRAM لدقة 1024X768) .
التحديثات
2024/10/17
: نسخة خالية من الكمامة ؟ تم إصدار CatVTON ويرجى تجربتها في العرض التوضيحي عبر الإنترنت .
2024/10/13
: لقد قمنا ببناء نموذج رائع للتجربة يركز على الصور والفيديو ونماذج التجارب ثلاثية الأبعاد المنشورة بعد عام 2023، بهدف تقديم رؤى حول أحدث الاتجاهات التكنولوجية. إذا كنت مهتمًا، فلا تتردد في المساهمة أو إعطائها؟ نجم!
2024/08/13
: قمنا بترجمة DensePose وSCHP لتجنب مشكلات بيئية معينة.
2024/08/10
: لدينا ؟ مساحة HuggingFace متاحة الآن! شكرًا على المنحة المقدمة من ZeroGPU !
2024/08/09
: يتم توفير رمز التقييم لحساب المقاييس.
2024/07/27
: نحن نقدم التعليمات البرمجية وسير العمل لنشر CatVTON على ComfyUI ؟.
2024/07/24
: ورقتنا على ArXiv متاحة ؟!
2024/07/22
: تم إصدار رمز التطبيق الخاص بنا، ونشره والاستمتاع بـ CatVTON على جهازك؟!
2024/07/21
: رمز الاستدلال والأوزان لدينا؟ تم إطلاق سراحهم.
2024/07/11
: تم إصدار العرض التجريبي عبر الإنترنت ؟.
إنشاء بيئة كوندا وتثبيت المتطلبات
conda create -n catvton python==3.9.0 conda قم بتنشيط catvtoncd CatVTON-main # أو المسار الخاص بك إلى مشروع CatVTON dirpip install -r Requirements.txt
لقد قمنا بتعديل الكود الرئيسي لتمكين النشر السهل لـ CatVTON على ComfyUI. نظرًا لعدم توافق بنية التعليمات البرمجية، فقد قمنا بإصدار هذا الجزء في الإصدارات، والذي يتضمن التعليمات البرمجية الموضوعة ضمن custom_nodes
الخاصة بـ ComfyUI وملفات JSON الخاصة بسير العمل.
لنشر CatVTON على ComfyUI، اتبع الخطوات التالية:
قم بتثبيت جميع متطلبات كل من CatVTON وComfyUI، راجع دليل تثبيت CatVTON ودليل التثبيت لـ ComfyUI.
قم بتنزيل ComfyUI-CatVTON.zip
وقم بفك ضغطه في المجلد custom_nodes
ضمن مشروع ComfyUI الخاص بك (استنساخ من ComfyUI).
قم بتشغيل ComfyUI.
قم بتنزيل catvton_workflow.json
واسحبه إلى صفحة الويب الخاصة بك ComfyUI واستمتع؟!
مشاكل في نظام التشغيل Windows، يرجى الرجوع إلى الإصدار رقم 8.
عند تشغيل سير عمل CatVTON لأول مرة، سيتم تنزيل ملفات الوزن تلقائيًا، ويستغرق هذا عادةً عشرات الدقائق.
لنشر تطبيق Gradio لـ CatVTON على جهازك، قم بتشغيل الأمر التالي، وسيتم تنزيل نقاط التفتيش تلقائيًا من HuggingFace.
CUDA_VISIBLE_DEVICES=0 بيثون app.py --output_dir = "resource/demo/output" --mixed_precision = "bf16" --allow_tf32
عند استخدام دقة bf16
، فإن إنشاء نتائج بدقة 1024x768
لا يتطلب سوى حوالي 8G
من VRAM.
قبل الاستدلال، تحتاج إلى تنزيل مجموعة بيانات VITON-HD أو DressCode. بمجرد تنزيل مجموعات البيانات، يجب أن تبدو هياكل المجلدات كما يلي:
├── VITON-HD | ├── test_pairs_unpaired.txt │ ├── test | | ├── image │ │ │ ├── [000006_00.jpg | 000008_00.jpg | ...] │ │ ├── cloth │ │ │ ├── [000006_00.jpg | 000008_00.jpg | ...] │ │ ├── agnostic-mask │ │ │ ├── [000006_00_mask.png | 000008_00.png | ...] ...
├── DressCode | ├── test_pairs_paired.txt | ├── test_pairs_unpaired.txt │ ├── [dresses | lower_body | upper_body] | | ├── test_pairs_paired.txt | | ├── test_pairs_unpaired.txt │ │ ├── images │ │ │ ├── [013563_0.jpg | 013563_1.jpg | 013564_0.jpg | 013564_1.jpg | ...] │ │ ├── agnostic_masks │ │ │ ├── [013563_0.png| 013564_0.png | ...] ...
بالنسبة لمجموعة بيانات DressCode، نقدم برنامجًا نصيًا للأقنعة الحيادية المعالجة مسبقًا، وقم بتشغيل الأمر التالي:
CUDA_VISIBLE_DEVICES=0 بيثون preprocess_agnostic_mask.py --data_root_path
لتشغيل الاستدلال على مجموعة بيانات DressCode أو VITON-HD، قم بتشغيل الأمر التالي، وسيتم تنزيل نقاط التفتيش تلقائيًا من HuggingFace.
CUDA_VISIBLE_DEVICES=0 python inference.py --مجموعة البيانات [رمز اللباس | فيتونهد] --data_root_path--output_dir --dataloader_num_workers 8 --batch_size 8 --seed 555 --mixed_precision [لا | FP16 | فرنك بلجيكي 16] --allow_tf32 --إعادة رسم --eval_pair
بعد الحصول على نتائج الاستدلال، قم بحساب المقاييس باستخدام الأمر التالي:
CUDA_VISIBLE_DEVICES=0 بيثون eval.py --gt_folder--pred_folder --مقترن --batch_size=16 --num_workers=16
يجب أن يكون --gt_folder
و --pred_folder
مجلدين يحتويان على صور فقط .
لتقييم النتائج في إعداد مقترن، استخدم --paired
; لإعداد غير مقترن، ببساطة حذفه.
يجب تعديل --batch_size
و- --num_workers
بناءً على جهازك.
تم تعديل الكود الخاص بنا بناءً على الناشرين. نحن نعتمد الإصدار 1.5 من Stable Diffusion كنموذج أساسي. نحن نستخدم SCHP وDensePose لإنشاء أقنعة تلقائيًا في تطبيق Gradio وسير عمل ComfyUI. شكرا لجميع المساهمين!
جميع المواد، بما في ذلك التعليمات البرمجية ونقاط التفتيش والعروض التوضيحية، متاحة بموجب ترخيص Creative Commons BY-NC-SA 4.0. لك الحرية في نسخ المشروع وإعادة توزيعه وإعادة مزجه وتحويله والبناء عليه لأغراض غير تجارية، طالما أنك تمنح الاعتماد المناسب وتوزع مساهماتك بموجب نفس الترخيص.
@misc{chong2024catvtonconcatenationneedvirtual, title={CatVTON: التسلسل هو كل ما تحتاجه للتجربة الافتراضية باستخدام نماذج الانتشار}, المؤلف={Zheng Chong وXiao Dong وHaoxiang Li وShiyue Zhang وWenqing Zhang وXujie Zhang وHanqing Zhao وXiaodan Liang}، year={2024}، eprint={2407.15886}، archivePrefix={arXiv}، PrimaryClass={cs .CV}، URL={https://arxiv.org/abs/2407.15886}، }