git clone https://github.com/subhc/unsup-parts.git
cd unsup-parts
conda env create --file environment.yml
conda activate unsup-parts
wget https://www.robots.ox.ac.uk/~vgg/research/unsup-parts/files/checkpoints.tar.gz
tar zxvf checkpoints.tar.gz
يستخدم المشروع الأوزان والتحيزات للتصور ، يرجى تحديث wandb_userid
في train.py
إلى اسم المستخدم الخاص بك
data
مع بنية المجلد التالية داخل واستخراج القطران في المواقع المذكورة. data
└── CUB # extract CUB_200_2011.tgz, cub_supervisedlabels.tar.gz here
├── CUB_200_2011 # extract cachedir.tar.gz and segmentations.tgz here
│ ├── attributes
│ ├── cachedir
│ ├── images
│ ├── parts
│ └── segmentations
└── supervisedlabels
مثال
mkdir -p data/CUB/
cd data/CUB/
tar zxvf CUB_200_2011.tgz
tar zxvf cub_supervised_labels.tar.gz
cd CUB_200_2011
tar zxvf segmentations.tgz
tar zxvf cachedir.tar.gz
data
مع بنية المجلد أدناه.segmentation
. data
└── DeepFashion
└── In-shop Clothes Retrieval Benchmark # extract deepfashion_supervisedlabels.tar.gz here
├── Anno
│ └── segmentation # extract img_highres_seg.zip here
│ └── img_highres
│ ├── MEN
│ └── WOMEN
└── supervisedlabels
└── img_highres
├── MEN
└── WOMEN
مثال
mkdir -p data/DeepFashion/In-shop Clothes Retrieval Benchmark/Anno/
cd data/DeepFashion/In-shop Clothes Retrieval Benchmark/
wget https://www.robots.ox.ac.uk/~vgg/research/unsup-parts/files/deepfashion_supervisedlabels.tar.gz
tar zxvf deepfashion_supervisedlabels.tar.gz
cd Anno
# get the segmentation folder from the google drive link
cd segmentation
unzip img_highres_seg.zip
لتدريب الشبل:
python train.py dataset_name=CUB
لتدريب الأزياء العميقة:
python train.py dataset_name=DF
يمكنك العثور على رمز التقييم في مجلد التقييم.
وصف | مقاس | وصلة |
---|---|---|
CUB-200-2011 (PTH) | 181 ميغابايت | هنا |
الأزياء العميقة (PTH) | 181 ميغابايت | هنا |
كلاهما (tar.gz) | 351 ميغابايت | هنا |
يرجى تحريك ملفات pth
في checkpoints/CUB
ومجلدات checkpoints/DeepFashion
على التوالي.
الهدف من التعلم التمثيل البصري الذي تم إشرافه ذاتيًا هو تعلم تمثيلات الصور القوية القابلة للتحويل ، مع تركيز غالبية الأبحاث على مستوى الكائن أو المشهد. من ناحية أخرى ، تلقى التعلم التمثيل على مستوى الجزء اهتمامًا أقل بكثير. في هذه الورقة ، نقترح نهجًا غير خاضع للإشراف لاكتشاف جزء الكائن والتجزئة ونقدم ثلاثة مساهمات. أولاً ، نقوم ببناء مهمة وكيل من خلال مجموعة من الأهداف التي تشجع النموذج على تعلم تحلل ذي معنى للصورة في أجزائها. ثانياً ، يجادل العمل السابق بإعادة بناء أو تجميع الميزات المحسوبة مسبقًا كبديل للأجزاء ؛ نظهر تجريبياً أن هذا وحده من غير المرجح أن يجد أجزاء ذات معنى ؛ ويرجع ذلك أساسًا إلى انخفاض الدقة وميل شبكات التصنيف إلى تشويه المعلومات المكانية. نقترح أن إعادة بناء الصور على مستوى وحدات البكسل يمكن أن تخفف من هذه المشكلة ، حيث تعمل كإشارة تكميلية. أخيرًا ، نظهر أن التقييم القياسي القائم على انحدار المفاتيح لا يرتبط جيدًا بجودة التجزئة ، وبالتالي يقدم مقاييس مختلفة ، NMI و ARI ، والتي تميز بشكل أفضل تحلل الكائنات إلى أجزاء. تعطي طريقتنا أجزاء الدلالية التي تتسق عبر فئات دقيقة ولكنها متميزة بصريًا ، تتفوق على الحالة الفنية على ثلاث مجموعات بيانات قياسية. الكود متاح في صفحة المشروع.
@inproceedings{choudhury21unsupervised,
author = {Subhabrata Choudhury and Iro Laina and Christian Rupprecht and Andrea Vedaldi},
booktitle = {Proceedings of Advances in Neural Information Processing Systems (NeurIPS)},
title = {Unsupervised Part Discovery from Contrastive Reconstruction},
year = {2021}
}
يعتمد الكود إلى حد كبير على SCOPS.