Добро пожаловать в СОЛИДЕР ! SOLIDER — это семантически управляемая среда обучения с самоконтролем, предназначенная для изучения общих представлений человека на основе массивных немаркированных изображений человека, что может принести максимальную пользу последующим человекоориентированным задачам. В отличие от существующих методов самоконтролируемого обучения, предварительные знания из изображений людей используются в SOLIDER для создания псевдосемантических меток и импорта большего количества семантической информации в изученное представление. Между тем, различные последующие задачи всегда требуют разных соотношений семантической информации и информации о внешнем виде, и одно изученное представление не может удовлетворить все требования. Чтобы решить эту проблему, SOLIDER представляет условную сеть с семантическим контроллером, которая может соответствовать различным потребностям последующих задач. Для получения более подробной информации обратитесь к нашей статье «За пределами внешнего вида: семантическая управляемая система самоконтролируемого обучения для человекоориентированных визуальных задач».
Эта база кода была разработана с использованием Python версии 3.7, PyTorch версии 1.7.1, CUDA 10.1 и torchvision 0.8.2.
Мы используем LUPerson в качестве обучающих данных, которые состоят из немаркированных изображений людей. Загрузите LUPerson по официальной ссылке и разархивируйте.
sh run_solider.sh
sh run_dino.sh
sh resume_solider.sh
Существует демо-версия для запуска обученной модели SOLIDER, которую можно внедрить в процесс вывода или тонкую настройку последующих задач.
python demo.py
В качестве основы мы используем Swin-Transformer, который показывает большие преимущества при решении многих CV-задач.
Задача | Набор данных | Свин Крошечный (Связь) | Суин Смолл (Связь) | База Суин (Связь) |
---|---|---|---|---|
Повторная идентификация личности (mAP/R1) без перерейтинга | Маркет1501 | 91,6/96,1 | 93,3/96,6 | 93,9/96,9 |
МСМТ17 | 67,4/85,9 | 76,9/90,8 | 77,1/90,7 | |
Повторная идентификация личности (mAP/R1) с изменением рейтинга | Маркет1501 | 95,3/96,6 | 95,4/96,4 | 95,6/96,7 |
МСМТ17 | 81,5/89,2 | 86,5/91,7 | 86,5/91,7 | |
Распознавание атрибутов (мА) | PETA_ZS | 74,37 | 76,21 | 76,43 |
РАП_ЗС | 74,23 | 75,95 | 76,42 | |
ПА100К | 84,14 | 86,25 | 86,37 | |
Поиск человека (mAP/R1) | CUHK-SYSU | 94,9/95,7 | 95,5/95,8 | 94,9/95,5 |
PRW | 56,8/86,8 | 59,8/86,7 | 59,7/86,8 | |
Обнаружение пешеходов (MR-2) | ГородЛюди | 10,3/40,8 | 10,0/39,2 | 9,7/39,4 |
Человеческий анализ (мМОУ) | ГУБ | 57,52 | 60,21 | 60,50 |
Оценка позы (AP/AR) | КОКО | 74,4/79,6 | 76,3/81,3 | 76,6/81,5 |
Наша реализация в основном основана на следующих базах кода. Мы с благодарностью благодарим авторов за их замечательные работы.
Если вы используете SOLIDER в своих исследованиях, процитируйте нашу работу, используя следующую запись BibTeX:
@inproceedings{chen2023beyond,
title={Beyond Appearance: a Semantic Controllable Self-Supervised Learning Framework for Human-Centric Visual Tasks},
author={Weihua Chen and Xianzhe Xu and Jian Jia and Hao Luo and Yaohua Wang and Fan Wang and Rong Jin and Xiuyu Sun},
booktitle={The IEEE/CVF Conference on Computer Vision and Pattern Recognition},
year={2023},
}