このリポジトリには、現実世界画像の合成画像検索 ( CIRR ) データセットが含まれています。
詳細については、ICCV 2021 論文「事前トレーニングされた視覚と言語モデルを使用した実生活画像の画像検索」を参照してください。
現在、データセット リポジトリを表示しています。サイトナビゲーション >プロジェクトのホームページ|コードリポジトリ
ニュースと今後のアップデート
私たちのデータセットは、このタスクに関する既存のデータセットである Fashion-IQ と同様の方法で構造化されています。ファイルには、注釈、生の画像、およびオプションの事前抽出された画像機能が含まれています。
注釈は次の方法で取得します。
# create a `data` folder at your desired location
mkdir data
cd data
# clone the cirr_dataset branch to the local data/cirr folder
git clone -b cirr_dataset [email protected]:Cuberick-Orion/CIRR.git cirr
data/cirr
フォルダーには、関連するすべての注釈が含まれています。ファイル構造は以下のとおりです。
2024 年 10 月更新 -- NLVR2 から RAW 画像にアクセスできない場合は、お問い合わせください。
2023 年後半から、NLVR2 チームがその要求に応じていないことが複数の研究グループによって認識されています。この目的を達成するには、生の画像を取得する次の手順を参照してください。
重要
NLVR2 リポジトリは、イメージを取得する別の方法、つまり URL によってイメージをダウンロードする方法を提供します。ただし、多くのリンクが壊れており、ダウンロードされたファイルには/train
フォルダー内のサブフォルダー構造がないため、これはお勧めしません。
代わりに、上記の手順に従って RAW イメージを直接ダウンロードしてください。
利用可能な画像特徴のタイプは次のとおりです。
当社が提供する各zip
ファイルには、個別の画像特徴ファイル.pkl
のフォルダーが含まれています。
ダウンロードしたら、以下のファイル構造に従ってdata/cirr/
に解凍します。
data
└─── cirr
├─── captions
│ cap.VER.test1.json
│ cap.VER.train.json
│ cap.VER.val.json
├─── captions_ext
│ cap.ext.VER.test1.json
│ cap.ext.VER.train.json
│ cap.ext.VER.val.json
├─── image_splits
│ split.VER.test1.json
│ split.VER.train.json
│ split.VER.val.json
├─── img_raw
│ ├── train
│ │ ├── 0 # sub-level folder structure inherited from NLVR2 (carries no special meaning in CIRR)
│ │ │ <IMG0_ID>.png
│ │ │ <IMG0_ID>.png
│ │ │ ...
│ │ ├── 1
│ │ │ <IMG0_ID>.png
│ │ │ <IMG0_ID>.png
│ │ │ ...
│ │ ├── 2
│ │ │ <IMG0_ID>.png
│ │ │ <IMG0_ID>.png
│ │ └── ...
│ ├── dev
│ │ <IMG0_ID>.png
│ │ <IMG1_ID>.png
│ │ ...
│ └── test1
│ <IMG0_ID>.png
│ <IMG1_ID>.png
│ ...
├─── img_feat_res152
│ <Same subfolder structure as above>
└─── img_feat_frcnn
<Same subfolder structure as above>
captions/cap.VER.SPLIT.json
要素のリスト。各要素にはクエリとターゲットのペアに関するコア情報が含まれます。
各エントリの詳細については、補足を参照してください。マット。秒私たちの論文のG。
{ "pairid" : 12063 ,
"reference" : " test1-147-1-img1 " ,
"target_hard" : " test1-83-0-img1 " ,
"target_soft" : { "test1-83-0-img1" : 1.0 },
"caption" : " remove all but one dog and add a woman hugging it " ,
"img_set" : { "id" : 1 ,
"members" : [ " test1-147-1-img1 " ,
" test1-1001-2-img0 " ,
" test1-83-1-img1 " ,
" test1-359-0-img1 " ,
" test1-906-0-img1 " ,
" test1-83-0-img1 " ],
"reference_rank" : 3 ,
"target_rank" : 4 }
}
captions_ext/cap.ext.VER.SPLIT.json
要素のリスト。各要素にはクエリとターゲットのペアに関する補助的な注釈が含まれます。
補助注釈の詳細については、補足を参照してください。マット。秒私たちの論文のC。
{ "pairid" : 12063 ,
"reference" : " test1-147-1-img1 " ,
"target_hard" : " test1-83-0-img1 " ,
"caption_extend" : { "0" : " being a photo of dogs " ,
"1" : " add a big dog " ,
"2" : " more focused on the hugging " ,
"3" : " background should contain grass " }
}
image_splits/split.VER.SPLIT.json
"test1-147-1-img1" : " ./test1/test1-147-1-img1.png " ,
# or
"train-11041-2-img0" : " ./train/34/train-11041-2-img0.png "
img_feat_<...>/
< IMG0_ID > = "test1-147-1-img1.png" . replace ( '.png' , '.pkl' )
test1-147-1-img1.pkl
なので、各ファイルにその名前で直接インデックスを付けることができます。 CIRR のテスト分割に関する真実は公開されていません。テスト分割で結果を公開したい場合は、代わりに評価サーバーがここでホストされます。テスト分割サーバーの機能は段階的に更新されます。
テスト分割サーバーの手順を参照してください。
サーバーは CECS ANU で独立してホストされているため、サイトがダウンしている場合はメールでご連絡ください。
当社は、MIT ライセンスに基づいて CIRR のアノテーションのライセンスを取得しています。詳細については、LICENSE ファイルを参照してください。
NLVR2 ライセンスに従い、CIRR で使用される画像の著作権は当社が保有していないため、ライセンスを付与しません。
CIRR で使用される画像は、NLVR2 データセットから取得されます。ユーザーはそのサービス利用規約に拘束されるものとします。
あなたの研究に役立つ場合は、私たちの論文を引用してください。
@InProceedings { Liu_2021_ICCV ,
author = { Liu, Zheyuan and Rodriguez-Opazo, Cristian and Teney, Damien and Gould, Stephen } ,
title = { Image Retrieval on Real-Life Images With Pre-Trained Vision-and-Language Models } ,
booktitle = { Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) } ,
month = { October } ,
year = { 2021 } ,
pages = { 2125-2134 }
}
データセット、モデル、出版物に関してご質問がある場合は、プロジェクト リポジトリで問題を作成するか、電子メールでお問い合わせください。