CIRRダウンロード - CIRRソースコードのダウンロード

CIRR

その他のソースコード

1.0.0

ダウンロード

実写画像上の合成画像検索

このリポジトリには、現実世界画像の合成画像検索 ( CIRR ) データセットが含まれています。

詳細については、ICCV 2021 論文「事前トレーニングされた視覚と言語モデルを使用した実生活画像の画像検索」を参照してください。

^{現在、データセットリポジトリを表示しています。サイトナビゲーション >プロジェクトのホームページ|コードリポジトリ}

ニュースと今後のアップデート

2024 年 10 月NLVR2 から RAW 画像にアクセスできない場合は、お問い合わせください。
2024 年 6 月ダウンロードリンクが更新されました。
私たちの論文 (表 2) にはタイプミスがあることに注意してください -- val のペアの数は~~4,184~~ 4,181。

CIRR データセットをダウンロード

私たちのデータセットは、このタスクに関する既存のデータセットである Fashion-IQ と同様の方法で構造化されています。ファイルには、注釈、生の画像、およびオプションの事前抽出された画像機能が含まれています。

注釈

注釈は次の方法で取得します。

 # create a `data` folder at your desired location
mkdir data
cd data

# clone the cirr_dataset branch to the local data/cirr folder
git clone -b cirr_dataset [email protected]:Cuberick-Orion/CIRR.git cirr

data/cirrフォルダーには、関連するすべての注釈が含まれています。ファイル構造は以下のとおりです。

生の画像

2024 年 10 月更新 -- NLVR2 から RAW 画像にアクセスできない場合は、お問い合わせください。

2023 年後半から、NLVR2 チームがその要求に応じていないことが複数の研究グループによって認識されています。この目的を達成するには、生の画像を取得する次の手順を参照してください。

まず NLVR チームに連絡し、サービス利用規約に同意する Google フォームに記入してください。手順はこちらです。
NLVR チームから応答がない場合は、電子メールでご連絡ください。
お問い合わせの際は、NLVR チームの Google フォームに記入し、利用規約に同意したことを明示してください。

重要

NLVR2 リポジトリは、イメージを取得する別の方法、つまり URL によってイメージをダウンロードする方法を提供します。ただし、多くのリンクが壊れており、ダウンロードされたファイルには/trainフォルダー内のサブフォルダー構造がないため、これはお勧めしません。

代わりに、上記の手順に従って RAW イメージを直接ダウンロードしてください。

事前に抽出された画像の特徴

利用可能な画像特徴のタイプは次のとおりです。

ImageNet の事前トレーニング済み ResNet152 機能
- RAW画像から抽出できる
- または、事前に抽出された機能をダウンロードしてください
F-RCNN画像の地域特徴
- NLVR2 から画像を入手しているため、OSCAR によって提供されています。
- CIRR で使用される機能のサブセットをダウンロードします (未使用の画像が除外され、弊社によって再圧縮されます)
- または、OSCAR から直接ダウンロードします

当社が提供する各zipファイルには、個別の画像特徴ファイル.pklのフォルダーが含まれています。

ダウンロードしたら、以下のファイル構造に従ってdata/cirr/に解凍します。

データセットのファイル構造

ダウンロードされたデータセットは次のようになります (クリックして展開)

 data
└─── cirr
    ├─── captions
    │        cap.VER.test1.json
    │        cap.VER.train.json
    │        cap.VER.val.json
    ├─── captions_ext
    │        cap.ext.VER.test1.json
    │        cap.ext.VER.train.json
    │        cap.ext.VER.val.json
    ├─── image_splits
    │        split.VER.test1.json
    │        split.VER.train.json
    │        split.VER.val.json
    ├─── img_raw  
    │    ├── train
    │    │    ├── 0 # sub-level folder structure inherited from NLVR2 (carries no special meaning in CIRR)
    │    │    │    <IMG0_ID>.png
    │    │    │    <IMG0_ID>.png
    │    │    │         ...
    │    │    ├── 1
    │    │    │    <IMG0_ID>.png
    │    │    │    <IMG0_ID>.png
    │    │    │         ...
    │    │    ├── 2
    │    │    │    <IMG0_ID>.png
    │    │    │    <IMG0_ID>.png
    │    │    └──       ...
    │    ├── dev         
    │    │      <IMG0_ID>.png
    │    │      <IMG1_ID>.png
    │    │           ...
    │    └── test1       
    │           <IMG0_ID>.png
    │           <IMG1_ID>.png
    │                ...
    ├─── img_feat_res152 
    │        <Same subfolder structure as above>
    └─── img_feat_frcnn         
             <Same subfolder structure as above>

データセットファイルの説明

captions/cap.VER.SPLIT.json

要素のリスト。各要素にはクエリとターゲットのペアに関するコア情報が含まれます。
各エントリの詳細については、補足を参照してください。マット。秒私たちの論文のG。

クリックして例を表示します

    { "pairid" : 12063 , 
    "reference" :   " test1-147-1-img1 " , 
    "target_hard" : " test1-83-0-img1 " , 
    "target_soft" : { "test1-83-0-img1" : 1.0 }, 
    "caption" : " remove all but one dog and add a woman hugging   it " , 
    "img_set" : { "id" : 1 , 
                "members" : [ " test1-147-1-img1 " , 
                            " test1-1001-2-img0 " ,  
                            " test1-83-1-img1 " ,           
                            " test1-359-0-img1 " ,  
                            " test1-906-0-img1 " , 
                            " test1-83-0-img1 " ],
                "reference_rank" : 3 , 
                "target_rank" : 4 }
    }

captions_ext/cap.ext.VER.SPLIT.json

要素のリスト。各要素にはクエリとターゲットのペアに関する補助的な注釈が含まれます。
補助注釈の詳細については、補足を参照してください。マット。秒私たちの論文のC。

クリックして例を表示します

    { "pairid" : 12063 , 
    "reference" :   " test1-147-1-img1 " , 
    "target_hard" : " test1-83-0-img1 " , 
    "caption_extend" : { "0" : " being a photo of dogs " , 
                      "1" : " add a big dog " , 
                      "2" : " more focused on the hugging " , 
                      "3" : " background should contain grass " }
    }

image_splits/split.VER.SPLIT.json
- 各キーと値のペアが画像ファイル名を img ファイルの相対パスにマップする辞書。例:
```
 "test1-147-1-img1" : " ./test1/test1-147-1-img1.png " ,
# or
"train-11041-2-img0" : " ./train/34/train-11041-2-img0.png "
```
- 画像ファイル名と (トレイン分割) サブレベルフォルダー構造は NLVR2 データセットから保存されます。
img_feat_<...>/
- 特定のタイプの事前に抽出された画像の特徴を含むフォルダー。各ファイルには 1 つの画像の特徴が保存されます。
- ファイル名は次のように生成されます。
```
 < IMG0_ID > = "test1-147-1-img1.png" . replace ( '.png' , '.pkl' )
```
  この場合、 test1-147-1-img1.pklなので、各ファイルにその名前で直接インデックスを付けることができます。

テスト分割評価サーバー

CIRR のテスト分割に関する真実は公開されていません。テスト分割で結果を公開したい場合は、代わりに評価サーバーがここでホストされます。テスト分割サーバーの機能は段階的に更新されます。

テスト分割サーバーの手順を参照してください。

サーバーは CECS ANU で独立してホストされているため、サイトがダウンしている場合はメールでご連絡ください。

ライセンス

当社は、MIT ライセンスに基づいて CIRR のアノテーションのライセンスを取得しています。詳細については、LICENSE ファイルを参照してください。
NLVR2 ライセンスに従い、CIRR で使用される画像の著作権は当社が保有していないため、ライセンスを付与しません。
CIRR で使用される画像は、NLVR2 データセットから取得されます。ユーザーはそのサービス利用規約に拘束されるものとします。

引用

あなたの研究に役立つ場合は、私たちの論文を引用してください。

 @InProceedings { Liu_2021_ICCV ,
    author    = { Liu, Zheyuan and Rodriguez-Opazo, Cristian and Teney, Damien and Gould, Stephen } ,
    title     = { Image Retrieval on Real-Life Images With Pre-Trained Vision-and-Language Models } ,
    booktitle = { Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) } ,
    month     = { October } ,
    year      = { 2021 } ,
    pages     = { 2125-2134 }
}