此儲存庫包含現實生活影像的合成影像檢索 ( CIRR ) 資料集。
有關詳細信息,請參閱我們的 ICCV 2021 論文 - Image Retrieval on Real-life Images with Pre-trained Vision-and-Language Models 。
您目前正在查看資料集儲存庫。網站導覽 >項目首頁|程式碼庫
新聞和即將更新
我們的資料集的結構與 Fashion-IQ 類似,Fashion-IQ 是該任務的現有資料集。這些文件包括註釋、原始圖像和可選的預提取圖像特徵。
透過以下方式取得註釋:
# create a `data` folder at your desired location
mkdir data
cd data
# clone the cirr_dataset branch to the local data/cirr folder
git clone -b cirr_dataset [email protected]:Cuberick-Orion/CIRR.git cirr
data/cirr
資料夾包含所有相關註解。文件結構如下所述。
2024 年 10 月更新 - 如果您在訪問 NLVR2 的原始圖像時遇到問題,請與我們聯絡。
從 2023 年底開始,多個研究小組通知我們,NLVR2 團隊沒有回應他們的請求。為此,請參閱以下取得原始影像的步驟:
重要的
NLVR2儲存庫提供了另一種獲取影像的方式,即透過URL下載影像。但我們不推薦它,因為許多連結已損壞,下載的檔案缺少/train
資料夾中的子資料夾結構。
相反,請按照上述說明直接下載原始圖像。
可用的影像特徵類型有:
我們提供的每個zip
檔案都包含一個包含各個影像特徵檔.pkl
的資料夾。
下載後,將其解壓縮到data/cirr/
中,遵循下面的檔案結構。
data
└─── cirr
├─── captions
│ cap.VER.test1.json
│ cap.VER.train.json
│ cap.VER.val.json
├─── captions_ext
│ cap.ext.VER.test1.json
│ cap.ext.VER.train.json
│ cap.ext.VER.val.json
├─── image_splits
│ split.VER.test1.json
│ split.VER.train.json
│ split.VER.val.json
├─── img_raw
│ ├── train
│ │ ├── 0 # sub-level folder structure inherited from NLVR2 (carries no special meaning in CIRR)
│ │ │ <IMG0_ID>.png
│ │ │ <IMG0_ID>.png
│ │ │ ...
│ │ ├── 1
│ │ │ <IMG0_ID>.png
│ │ │ <IMG0_ID>.png
│ │ │ ...
│ │ ├── 2
│ │ │ <IMG0_ID>.png
│ │ │ <IMG0_ID>.png
│ │ └── ...
│ ├── dev
│ │ <IMG0_ID>.png
│ │ <IMG1_ID>.png
│ │ ...
│ └── test1
│ <IMG0_ID>.png
│ <IMG1_ID>.png
│ ...
├─── img_feat_res152
│ <Same subfolder structure as above>
└─── img_feat_frcnn
<Same subfolder structure as above>
captions/cap.VER.SPLIT.json
元素列表,其中每個元素包含查詢目標對的核心資訊。
每個條目的詳細資訊可以在支援中找到。墊。秒。我們論文的G。
{ "pairid" : 12063 ,
"reference" : " test1-147-1-img1 " ,
"target_hard" : " test1-83-0-img1 " ,
"target_soft" : { "test1-83-0-img1" : 1.0 },
"caption" : " remove all but one dog and add a woman hugging it " ,
"img_set" : { "id" : 1 ,
"members" : [ " test1-147-1-img1 " ,
" test1-1001-2-img0 " ,
" test1-83-1-img1 " ,
" test1-359-0-img1 " ,
" test1-906-0-img1 " ,
" test1-83-0-img1 " ],
"reference_rank" : 3 ,
"target_rank" : 4 }
}
captions_ext/cap.ext.VER.SPLIT.json
元素列表,其中每個元素都包含查詢目標對的輔助註釋。
有關輔助註釋的詳細資訊可以在supp中找到。墊。秒。我們論文的C。
{ "pairid" : 12063 ,
"reference" : " test1-147-1-img1 " ,
"target_hard" : " test1-83-0-img1 " ,
"caption_extend" : { "0" : " being a photo of dogs " ,
"1" : " add a big dog " ,
"2" : " more focused on the hugging " ,
"3" : " background should contain grass " }
}
image_splits/split.VER.SPLIT.json
"test1-147-1-img1" : " ./test1/test1-147-1-img1.png " ,
# or
"train-11041-2-img0" : " ./train/34/train-11041-2-img0.png "
img_feat_<...>/
< IMG0_ID > = "test1-147-1-img1.png" . replace ( '.png' , '.pkl' )
test1-147-1-img1.pkl
,以便每個檔案可以直接按其名稱進行索引。 我們不發布 CIRR 測試分割的基本事實。相反,如果您希望在測試拆分上發布結果,則此處託管評估伺服器。測試分割伺服器的功能將逐步更新。
請參閱測試分割伺服器說明。
該伺服器獨立託管在 CECS ANU,因此如果網站發生故障,請發送電子郵件給我們。
我們已根據 MIT 許可證獲得 CIRR 註釋的許可。詳細資訊請參閱 LICENSE 文件。
遵循 NLVR2 許可協議,我們不會對 CIRR 中使用的圖像進行許可,因為我們不擁有這些圖像的版權。
CIRR 中使用的影像源自 NLVR2 資料集。使用者應受其服務條款的約束。
如果我們的論文對您的研究有幫助,請引用:
@InProceedings { Liu_2021_ICCV ,
author = { Liu, Zheyuan and Rodriguez-Opazo, Cristian and Teney, Damien and Gould, Stephen } ,
title = { Image Retrieval on Real-Life Images With Pre-Trained Vision-and-Language Models } ,
booktitle = { Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) } ,
month = { October } ,
year = { 2021 } ,
pages = { 2125-2134 }
}
如果您對我們的資料集、模型或出版物有任何疑問,請在專案儲存庫中建立問題,或給我們發送電子郵件。