Este repositorio contiene el conjunto de datos de recuperación de imágenes compuestas en imágenes de la vida real ( CIRR ).
Para obtener más información, consulte nuestro artículo de ICCV 2021: Recuperación de imágenes de la vida real con modelos de visión y lenguaje previamente entrenados .
Actualmente estás viendo el repositorio de conjuntos de datos . Navegación del sitio > Página de inicio del proyecto | repositorio de código
Noticias y próximas actualizaciones
Nuestro conjunto de datos está estructurado de manera similar a Fashion-IQ, un conjunto de datos existente sobre esta tarea. Los archivos incluyen anotaciones, imágenes sin procesar y funciones opcionales de imágenes preextraídas.
Obtenga las anotaciones mediante:
# create a `data` folder at your desired location
mkdir data
cd data
# clone the cirr_dataset branch to the local data/cirr folder
git clone -b cirr_dataset [email protected]:Cuberick-Orion/CIRR.git cirr
La carpeta data/cirr
contiene todas las anotaciones relevantes. La estructura del archivo se describe a continuación.
Actualizado en octubre de 2024: contáctenos si tiene problemas para acceder a las imágenes sin procesar de NLVR2.
Desde finales de 2023, varios grupos de investigación nos han informado que el equipo de NLVR2 no responde a sus solicitudes. Para ello, consulte los siguientes pasos para obtener las imágenes sin formato:
Importante
El repositorio NLVR2 proporciona otra forma de obtener las imágenes, que es descargarlas mediante URL. Pero no lo recomendamos, ya que muchos de los enlaces están rotos y los archivos descargados carecen de la estructura de subcarpetas en la carpeta /train
.
En su lugar, siga las instrucciones anteriores para descargar directamente las imágenes sin formato.
Los tipos de funciones de imagen disponibles son:
Cada archivo zip
que proporcionamos contiene una carpeta de archivos de características de imágenes individuales .pkl
.
Una vez descargado, descomprímalo en data/cirr/
, siguiendo la estructura de archivos a continuación.
data
└─── cirr
├─── captions
│ cap.VER.test1.json
│ cap.VER.train.json
│ cap.VER.val.json
├─── captions_ext
│ cap.ext.VER.test1.json
│ cap.ext.VER.train.json
│ cap.ext.VER.val.json
├─── image_splits
│ split.VER.test1.json
│ split.VER.train.json
│ split.VER.val.json
├─── img_raw
│ ├── train
│ │ ├── 0 # sub-level folder structure inherited from NLVR2 (carries no special meaning in CIRR)
│ │ │ <IMG0_ID>.png
│ │ │ <IMG0_ID>.png
│ │ │ ...
│ │ ├── 1
│ │ │ <IMG0_ID>.png
│ │ │ <IMG0_ID>.png
│ │ │ ...
│ │ ├── 2
│ │ │ <IMG0_ID>.png
│ │ │ <IMG0_ID>.png
│ │ └── ...
│ ├── dev
│ │ <IMG0_ID>.png
│ │ <IMG1_ID>.png
│ │ ...
│ └── test1
│ <IMG0_ID>.png
│ <IMG1_ID>.png
│ ...
├─── img_feat_res152
│ <Same subfolder structure as above>
└─── img_feat_frcnn
<Same subfolder structure as above>
captions/cap.VER.SPLIT.json
Una lista de elementos, donde cada elemento contiene información básica sobre un par de destino de consulta.
Los detalles sobre cada entrada se pueden encontrar en el soporte. estera. Segundo. G de nuestro periódico.
{ "pairid" : 12063 ,
"reference" : " test1-147-1-img1 " ,
"target_hard" : " test1-83-0-img1 " ,
"target_soft" : { "test1-83-0-img1" : 1.0 },
"caption" : " remove all but one dog and add a woman hugging it " ,
"img_set" : { "id" : 1 ,
"members" : [ " test1-147-1-img1 " ,
" test1-1001-2-img0 " ,
" test1-83-1-img1 " ,
" test1-359-0-img1 " ,
" test1-906-0-img1 " ,
" test1-83-0-img1 " ],
"reference_rank" : 3 ,
"target_rank" : 4 }
}
captions_ext/cap.ext.VER.SPLIT.json
Una lista de elementos, donde cada elemento contiene anotaciones auxiliares en un par de destino de consulta.
Los detalles sobre las anotaciones auxiliares se pueden encontrar en el suplemento. estera. Segundo. C de nuestro artículo.
{ "pairid" : 12063 ,
"reference" : " test1-147-1-img1 " ,
"target_hard" : " test1-83-0-img1 " ,
"caption_extend" : { "0" : " being a photo of dogs " ,
"1" : " add a big dog " ,
"2" : " more focused on the hugging " ,
"3" : " background should contain grass " }
}
image_splits/split.VER.SPLIT.json
"test1-147-1-img1" : " ./test1/test1-147-1-img1.png " ,
# or
"train-11041-2-img0" : " ./train/34/train-11041-2-img0.png "
img_feat_<...>/
< IMG0_ID > = "test1-147-1-img1.png" . replace ( '.png' , '.pkl' )
test1-147-1-img1.pkl
, para que cada archivo pueda indexarse directamente por su nombre. No publicamos la verdad fundamental para la división de prueba de CIRR. En su lugar, aquí se aloja un servidor de evaluación, en caso de que prefiera publicar los resultados en la división de pruebas. Las funciones del servidor test-split se actualizarán incrementalmente.
Consulte las instrucciones del servidor dividido de prueba.
El servidor está alojado de forma independiente en CECS ANU, así que envíenos un correo electrónico si el sitio no funciona.
Hemos licenciado las anotaciones de CIRR bajo la licencia MIT. Consulte el archivo de LICENCIA para obtener más detalles.
De acuerdo con la licencia NLVR2, no otorgamos licencia sobre las imágenes utilizadas en CIRR, ya que no poseemos los derechos de autor sobre ellas.
Las imágenes utilizadas en CIRR provienen del conjunto de datos NLVR2. Los usuarios estarán sujetos a sus Términos de servicio.
Cite nuestro artículo si ayuda a su investigación:
@InProceedings { Liu_2021_ICCV ,
author = { Liu, Zheyuan and Rodriguez-Opazo, Cristian and Teney, Damien and Gould, Stephen } ,
title = { Image Retrieval on Real-Life Images With Pre-Trained Vision-and-Language Models } ,
booktitle = { Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) } ,
month = { October } ,
year = { 2021 } ,
pages = { 2125-2134 }
}
Si tiene alguna pregunta sobre nuestro conjunto de datos, modelo o publicación, cree un problema en el repositorio del proyecto o envíenos un correo electrónico.