مرحبا بكم في سوليدر ! SOLIDER هو إطار تعليمي ذاتي الإشراف يمكن التحكم فيه لتعلم التمثيلات البشرية العامة من الصور البشرية الضخمة غير المسماة والتي يمكن أن تفيد المهام التي تتمحور حول الإنسان إلى أقصى حد. على عكس طرق التعلم الحالية الخاضعة للإشراف الذاتي، يتم استخدام المعرفة السابقة من الصور البشرية في SOLIDER لبناء تسميات دلالية زائفة واستيراد المزيد من المعلومات الدلالية في التمثيل المتعلم. وفي الوقت نفسه، تتطلب المهام النهائية المختلفة دائمًا نسبًا مختلفة من المعلومات الدلالية ومعلومات المظهر، ولا يمكن أن يتناسب التمثيل المتعلم الواحد مع جميع المتطلبات. لحل هذه المشكلة، يقدم SOLIDER شبكة شرطية مع وحدة تحكم دلالية، والتي يمكن أن تناسب الاحتياجات المختلفة للمهام النهائية. لمزيد من التفاصيل، يرجى الرجوع إلى ورقتنا "ما وراء المظهر: إطار تعلم ذاتي الإشراف الدلالي يمكن التحكم فيه للمهام البصرية التي تتمحور حول الإنسان".
تم تطوير قاعدة التعليمات البرمجية هذه باستخدام إصدار python 3.7 وPyTorch الإصدار 1.7.1 وCUDA 10.1 وtorchvision 0.8.2.
نحن نستخدم LUPerson كبيانات تدريبية لدينا، والتي تتكون من صور بشرية غير مسماة. قم بتنزيل LUPerson من الرابط الرسمي الخاص به وقم بفك ضغطه.
sh run_solider.sh
sh run_dino.sh
sh resume_solider.sh
يوجد عرض توضيحي لتشغيل نموذج SOLIDER المُدرب، والذي يمكن تضمينه في الاستدلال أو ضبط المهمة النهائية.
python demo.py
نحن نستخدم Swin-Transformer باعتباره العمود الفقري لدينا، مما يُظهر مزايا رائعة في العديد من مهام السيرة الذاتية.
مهمة | مجموعة البيانات | سوين تايني (وصلة) | سوين صغير (وصلة) | قاعدة سوين (وصلة) |
---|---|---|---|---|
إعادة تحديد هوية الشخص (mAP/R1) ث / س إعادة الترتيب | السوق1501 | 91.6/96.1 | 93.3/96.6 | 93.9/96.9 |
MSMT17 | 67.4/85.9 | 76.9/90.8 | 77.1/90.7 | |
إعادة تحديد هوية الشخص (mAP/R1) مع إعادة الترتيب | السوق1501 | 95.3/96.6 | 95.4/96.4 | 95.6/96.7 |
MSMT17 | 81.5/89.2 | 86.5/91.7 | 86.5/91.7 | |
التعرف على السمات (مللي أمبير) | بيتا_ZS | 74.37 | 76.21 | 76.43 |
RAP_ZS | 74.23 | 75.95 | 76.42 | |
PA100K | 84.14 | 86.25 | 86.37 | |
البحث عن شخص (mAP/R1) | CUHK-SYSU | 94.9/95.7 | 95.5/95.8 | 94.9/95.5 |
بي آر دبليو | 56.8/86.8 | 59.8/86.7 | 59.7/86.8 | |
كشف المشاة (MR-2) | أشخاص المدينة | 10.3/40.8 | 10.0/39.2 | 9.7/39.4 |
التحليل البشري (mIOU) | شفة | 57.52 | 60.21 | 60.50 |
تقدير الوضعية (AP/AR) | كوكو | 74.4/79.6 | 76.3/81.3 | 76.6/81.5 |
يعتمد تنفيذنا بشكل أساسي على قواعد التعليمات البرمجية التالية. ونحن نشكر المؤلفين بامتنان على أعمالهم الرائعة.
إذا كنت تستخدم SOLIDER في بحثك، فيرجى الاستشهاد بعملنا باستخدام إدخال BibTeX التالي:
@inproceedings{chen2023beyond,
title={Beyond Appearance: a Semantic Controllable Self-Supervised Learning Framework for Human-Centric Visual Tasks},
author={Weihua Chen and Xianzhe Xu and Jian Jia and Hao Luo and Yaohua Wang and Fan Wang and Rong Jin and Xiuyu Sun},
booktitle={The IEEE/CVF Conference on Computer Vision and Pattern Recognition},
year={2023},
}