git clone https://github.com/subhc/unsup-parts.git
cd unsup-parts
conda env create --file environment.yml
conda activate unsup-parts
wget https://www.robots.ox.ac.uk/~vgg/research/unsup-parts/files/checkpoints.tar.gz
tar zxvf checkpoints.tar.gz
プロジェクトでは、視覚化にウェイトとバイアスを使用しています。Wandb_userid wandb_userid
train.py
のユーザー名に更新してください
data
という名前のディレクトリを作成し、前述の場所でTARを抽出します。 data
└── CUB # extract CUB_200_2011.tgz, cub_supervisedlabels.tar.gz here
├── CUB_200_2011 # extract cachedir.tar.gz and segmentations.tgz here
│ ├── attributes
│ ├── cachedir
│ ├── images
│ ├── parts
│ └── segmentations
└── supervisedlabels
例
mkdir -p data/CUB/
cd data/CUB/
tar zxvf CUB_200_2011.tgz
tar zxvf cub_supervised_labels.tar.gz
cd CUB_200_2011
tar zxvf segmentations.tgz
tar zxvf cachedir.tar.gz
data
という名前のディレクトリを作成します。segmentation
フォルダーを抽出します。 data
└── DeepFashion
└── In-shop Clothes Retrieval Benchmark # extract deepfashion_supervisedlabels.tar.gz here
├── Anno
│ └── segmentation # extract img_highres_seg.zip here
│ └── img_highres
│ ├── MEN
│ └── WOMEN
└── supervisedlabels
└── img_highres
├── MEN
└── WOMEN
例
mkdir -p data/DeepFashion/In-shop Clothes Retrieval Benchmark/Anno/
cd data/DeepFashion/In-shop Clothes Retrieval Benchmark/
wget https://www.robots.ox.ac.uk/~vgg/research/unsup-parts/files/deepfashion_supervisedlabels.tar.gz
tar zxvf deepfashion_supervisedlabels.tar.gz
cd Anno
# get the segmentation folder from the google drive link
cd segmentation
unzip img_highres_seg.zip
カブを訓練する:
python train.py dataset_name=CUB
ディープファッションを訓練するために:
python train.py dataset_name=DF
評価コードは評価フォルダーにあります。
説明 | サイズ | リンク |
---|---|---|
CUB-200-2011(PTH) | 181MB | ここ |
ディープファッション(PTH) | 181MB | ここ |
両方(tar.gz) | 351MB | ここ |
pth
ファイルをcheckpoints/CUB
とcheckpoints/DeepFashion
フォルダーにそれぞれ移動してください。
自己監視された視覚表現学習の目標は、オブジェクトまたはシーンレベルに焦点を当てている研究の大部分を学ぶことです。一方、パーツレベルでの表現学習は、注目が大幅に少なくなりました。この論文では、オブジェクトのパーツの発見とセグメンテーションへの監視されていないアプローチを提案し、3つの貢献をします。最初に、モデルが画像の意味のある分解をその部分に学習することを奨励する一連の目標を通じて、プロキシタスクを構築します。第二に、以前の作業は、事前に計算された機能を部品の代理として再構築またはクラスタリングすることを主張しています。これだけで意味のある部分を見つける可能性は低いことを経験的に示します。主に、解像度が低く、分類ネットワークが情報を空間的に塗りつぶす傾向があるためです。ピクセルのレベルでの画像の再構築がこの問題を軽減し、補完的なキューとして機能することをお勧めします。最後に、キーポイント回帰に基づく標準的な評価は、セグメンテーションの品質とよく相関せず、したがって、オブジェクトの部分への分解をよりよく特徴付けるさまざまなメトリック、NMIとARIを導入することを示します。私たちの方法は、微調整されたが視覚的に異なるカテゴリ全体で一貫しているセマンティックパーツを生み出し、3つのベンチマークデータセットの最新技術を上回ります。コードはプロジェクトページで利用できます。
@inproceedings{choudhury21unsupervised,
author = {Subhabrata Choudhury and Iro Laina and Christian Rupprecht and Andrea Vedaldi},
booktitle = {Proceedings of Advances in Neural Information Processing Systems (NeurIPS)},
title = {Unsupervised Part Discovery from Contrastive Reconstruction},
year = {2021}
}
コードは主にスコップに基づいています。