ยินดีต้อนรับสู่ โซลเดอร์ ! SOLIDER คือ Semantic Controllable Self-Supervised Learning Framework เพื่อเรียนรู้การเป็นตัวแทนของมนุษย์ทั่วไปจากภาพมนุษย์ขนาดใหญ่ที่ไม่มีป้ายกำกับ ซึ่งจะเป็นประโยชน์ต่องานปลายน้ำที่มีมนุษย์เป็นศูนย์กลางในระดับสูงสุด ซึ่งแตกต่างจากวิธีการเรียนรู้แบบควบคุมตนเองที่มีอยู่ ความรู้เดิมจากภาพมนุษย์ถูกนำมาใช้ใน SOLIDER เพื่อสร้างป้ายกำกับความหมายหลอกและนำเข้าข้อมูลความหมายเพิ่มเติมไปยังการนำเสนอที่เรียนรู้ ในขณะเดียวกัน งานดาวน์สตรีมที่แตกต่างกันมักต้องการอัตราส่วนของข้อมูลความหมายและข้อมูลลักษณะที่แตกต่างกันเสมอ และการนำเสนอที่เรียนรู้เพียงรายการเดียวก็ไม่เหมาะกับข้อกำหนดทั้งหมด เพื่อแก้ไขปัญหานี้ SOLIDER ขอแนะนำเครือข่ายแบบมีเงื่อนไขพร้อมกับตัวควบคุมความหมาย ซึ่งสามารถตอบสนองความต้องการที่แตกต่างกันของงานดาวน์สตรีมได้ สำหรับรายละเอียดเพิ่มเติม โปรดดูเอกสารของเรา Beyond Appearance: กรอบการเรียนรู้แบบควบคุมตนเองแบบควบคุมความหมายได้สำหรับงานด้านการมองเห็นที่มีมนุษย์เป็นศูนย์กลาง
โค้ดเบสนี้ได้รับการพัฒนาด้วย python เวอร์ชัน 3.7, PyTorch เวอร์ชัน 1.7.1, CUDA 10.1 และ torchvision 0.8.2
เราใช้ LUPerson เป็นข้อมูลการฝึกอบรม ซึ่งประกอบด้วยรูปภาพมนุษย์ที่ไม่มีป้ายกำกับ ดาวน์โหลด LUPerson จากลิงก์อย่างเป็นทางการแล้วแตกไฟล์
sh run_solider.sh
sh run_dino.sh
sh resume_solider.sh
มีการสาธิตการใช้งานโมเดล SOLIDER ที่ได้รับการฝึกอบรม ซึ่งสามารถฝังลงในการอนุมานหรือการปรับแต่งงานดาวน์สตรีมได้
python demo.py
เราใช้ Swin-Transformer เป็นแกนหลักของเรา ซึ่งแสดงให้เห็นข้อได้เปรียบที่ยอดเยี่ยมในงาน CV มากมาย
งาน | ชุดข้อมูล | สวิน ไทนี่ (ลิงค์) | สวิน เล็ก (ลิงค์) | ฐานสวิง (ลิงค์) |
---|---|---|---|---|
การระบุตัวตนบุคคลซ้ำ (mAP/R1) โดยไม่มีการจัดอันดับใหม่ | ตลาด1501 | 91.6/96.1 | 93.3/96.6 | 93.9/96.9 |
เอ็มเอสเอ็มที17 | 67.4/85.9 | 76.9/90.8 | 77.1/90.7 | |
การระบุตัวตนบุคคลซ้ำ (mAP/R1) ด้วยการจัดอันดับใหม่ | ตลาด1501 | 95.3/96.6 | 95.4/96.4 | 95.6/96.7 |
เอ็มเอสเอ็มที17 | 81.5/89.2 | 86.5/91.7 | 86.5/91.7 | |
การรับรู้คุณลักษณะ (mA) | PETA_ZS | 74.37 | 76.21 | 76.43 |
แร็ป_ZS | 74.23 | 75.95 | 76.42 | |
PA100K | 84.14 | 86.25 | 86.37 | |
การค้นหาบุคคล (mAP/R1) | CUHK-SYSU | 94.9/95.7 | 95.5/95.8 | 94.9/95.5 |
พ.ร.ว | 56.8/86.8 | 59.8/86.7 | 59.7/86.8 | |
การตรวจจับคนเดินถนน (MR-2) | คนเมือง | 10.3/40.8 | 10.0/39.2 | 9.7/39.4 |
การแยกวิเคราะห์มนุษย์ (mIOU) | ลิป | 57.52 | 60.21 | 60.50 |
การประมาณท่าทาง (AP/AR) | โคโค่ | 74.4/79.6 | 76.3/81.3 | 76.6/81.5 |
การใช้งานของเรานั้นขึ้นอยู่กับโค้ดเบสต่อไปนี้เป็นหลัก เราขอขอบคุณผู้เขียนสำหรับผลงานที่ยอดเยี่ยมของพวกเขา
หากคุณใช้ SOLIDER ในการวิจัยของคุณ โปรดอ้างอิงงานของเราโดยใช้รายการ BibTeX ต่อไปนี้:
@inproceedings{chen2023beyond,
title={Beyond Appearance: a Semantic Controllable Self-Supervised Learning Framework for Human-Centric Visual Tasks},
author={Weihua Chen and Xianzhe Xu and Jian Jia and Hao Luo and Yaohua Wang and Fan Wang and Rong Jin and Xiuyu Sun},
booktitle={The IEEE/CVF Conference on Computer Vision and Pattern Recognition},
year={2023},
}