该存储库包含现实生活图像的合成图像检索 ( CIRR ) 数据集。
有关详细信息,请参阅我们的 ICCV 2021 论文 - Image Retrieval on Real-life Images with Pre-trained Vision-and-Language Models 。
您当前正在查看数据集存储库。网站导航 >项目首页|代码库
新闻和即将更新
我们的数据集的结构与 Fashion-IQ 类似,Fashion-IQ 是该任务的现有数据集。这些文件包括注释、原始图像和可选的预提取图像特征。
通过以下方式获取注释:
# create a `data` folder at your desired location
mkdir data
cd data
# clone the cirr_dataset branch to the local data/cirr folder
git clone -b cirr_dataset [email protected]:Cuberick-Orion/CIRR.git cirr
data/cirr
文件夹包含所有相关注释。文件结构如下所述。
2024 年 10 月更新 - 如果您在访问 NLVR2 的原始图像时遇到问题,请联系我们。
从 2023 年底开始,多个研究小组通知我们,NLVR2 团队没有回应他们的请求。为此,请参阅以下获取原始图像的步骤:
重要的
NLVR2存储库提供了另一种获取图像的方式,即通过URL下载图像。但我们不推荐它,因为许多链接已损坏,并且下载的文件缺少/train
文件夹中的子文件夹结构。
相反,请按照上述说明直接下载原始图像。
可用的图像特征类型有:
我们提供的每个zip
文件都包含一个包含各个图像特征文件.pkl
的文件夹。
下载后,将其解压缩到data/cirr/
中,遵循下面的文件结构。
data
└─── cirr
├─── captions
│ cap.VER.test1.json
│ cap.VER.train.json
│ cap.VER.val.json
├─── captions_ext
│ cap.ext.VER.test1.json
│ cap.ext.VER.train.json
│ cap.ext.VER.val.json
├─── image_splits
│ split.VER.test1.json
│ split.VER.train.json
│ split.VER.val.json
├─── img_raw
│ ├── train
│ │ ├── 0 # sub-level folder structure inherited from NLVR2 (carries no special meaning in CIRR)
│ │ │ <IMG0_ID>.png
│ │ │ <IMG0_ID>.png
│ │ │ ...
│ │ ├── 1
│ │ │ <IMG0_ID>.png
│ │ │ <IMG0_ID>.png
│ │ │ ...
│ │ ├── 2
│ │ │ <IMG0_ID>.png
│ │ │ <IMG0_ID>.png
│ │ └── ...
│ ├── dev
│ │ <IMG0_ID>.png
│ │ <IMG1_ID>.png
│ │ ...
│ └── test1
│ <IMG0_ID>.png
│ <IMG1_ID>.png
│ ...
├─── img_feat_res152
│ <Same subfolder structure as above>
└─── img_feat_frcnn
<Same subfolder structure as above>
captions/cap.VER.SPLIT.json
元素列表,其中每个元素包含查询目标对的核心信息。
每个条目的详细信息可以在支持中找到。垫。秒。我们论文的G。
{ "pairid" : 12063 ,
"reference" : " test1-147-1-img1 " ,
"target_hard" : " test1-83-0-img1 " ,
"target_soft" : { "test1-83-0-img1" : 1.0 },
"caption" : " remove all but one dog and add a woman hugging it " ,
"img_set" : { "id" : 1 ,
"members" : [ " test1-147-1-img1 " ,
" test1-1001-2-img0 " ,
" test1-83-1-img1 " ,
" test1-359-0-img1 " ,
" test1-906-0-img1 " ,
" test1-83-0-img1 " ],
"reference_rank" : 3 ,
"target_rank" : 4 }
}
captions_ext/cap.ext.VER.SPLIT.json
元素列表,其中每个元素都包含查询目标对的辅助注释。
有关辅助注释的详细信息可以在supp中找到。垫。秒。我们论文的C。
{ "pairid" : 12063 ,
"reference" : " test1-147-1-img1 " ,
"target_hard" : " test1-83-0-img1 " ,
"caption_extend" : { "0" : " being a photo of dogs " ,
"1" : " add a big dog " ,
"2" : " more focused on the hugging " ,
"3" : " background should contain grass " }
}
image_splits/split.VER.SPLIT.json
"test1-147-1-img1" : " ./test1/test1-147-1-img1.png " ,
# or
"train-11041-2-img0" : " ./train/34/train-11041-2-img0.png "
img_feat_<...>/
< IMG0_ID > = "test1-147-1-img1.png" . replace ( '.png' , '.pkl' )
test1-147-1-img1.pkl
,以便每个文件可以直接按其名称进行索引。 我们不发布 CIRR 测试分割的基本事实。相反,如果您希望在测试拆分上发布结果,则此处托管评估服务器。测试分割服务器的功能将逐步更新。
请参阅测试分割服务器说明。
该服务器独立托管在 CECS ANU,因此如果该网站出现故障,请给我们发送电子邮件。
我们已根据 MIT 许可证获得 CIRR 注释的许可。详细信息请参阅 LICENSE 文件。
遵循 NLVR2 许可协议,我们不会对 CIRR 中使用的图像进行许可,因为我们不拥有这些图像的版权。
CIRR 中使用的图像源自 NLVR2 数据集。用户应受其服务条款的约束。
如果我们的论文对您的研究有帮助,请引用:
@InProceedings { Liu_2021_ICCV ,
author = { Liu, Zheyuan and Rodriguez-Opazo, Cristian and Teney, Damien and Gould, Stephen } ,
title = { Image Retrieval on Real-Life Images With Pre-Trained Vision-and-Language Models } ,
booktitle = { Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) } ,
month = { October } ,
year = { 2021 } ,
pages = { 2125-2134 }
}
如果您对我们的数据集、模型或出版物有任何疑问,请在项目存储库中创建问题,或给我们发送电子邮件。