Ce référentiel contient l'ensemble de données de récupération d'images composées sur des images réelles ( CIRR ).
Pour plus de détails, veuillez consulter notre article ICCV 2021 - Récupération d'images sur des images réelles avec des modèles de vision et de langage pré-entraînés .
Vous consultez actuellement le référentiel de jeux de données . Navigation du site > Page d'accueil du projet | Dépôt de codes
Nouvelles et mises à jour à venir
Notre ensemble de données est structuré de la même manière que Fashion-IQ, un ensemble de données existant sur cette tâche. Les fichiers incluent des annotations, des images brutes et des fonctionnalités d'image pré-extraites en option.
Obtenez les annotations en :
# create a `data` folder at your desired location
mkdir data
cd data
# clone the cirr_dataset branch to the local data/cirr folder
git clone -b cirr_dataset [email protected]:Cuberick-Orion/CIRR.git cirr
Le dossier data/cirr
contient toutes les annotations pertinentes. La structure du fichier est décrite ci-dessous.
Mise à jour en octobre 2024 - Veuillez nous contacter si vous rencontrez des difficultés pour accéder aux images brutes de NLVR2.
Depuis fin 2023, plusieurs groupes de recherche nous ont fait prendre conscience que l’équipe NLVR2 ne répondait pas à leurs demandes. À cette fin, veuillez consulter les étapes suivantes pour obtenir les images brutes :
Important
Le référentiel NLVR2 propose un autre moyen d'obtenir les images, qui consiste à télécharger les images par URL. Mais nous ne le recommandons pas , car de nombreux liens sont rompus et les fichiers téléchargés n'ont pas la structure de sous-dossiers dans le dossier /train
.
Au lieu de cela, veuillez suivre les instructions ci-dessus pour télécharger directement les images brutes.
Les types de fonctionnalités d'image disponibles sont :
Chaque fichier zip
que nous fournissons contient un dossier de fichiers de fonctionnalités d'image individuels .pkl
.
Une fois téléchargé, décompressez-le dans data/cirr/
, en suivant la structure de fichier ci-dessous.
data
└─── cirr
├─── captions
│ cap.VER.test1.json
│ cap.VER.train.json
│ cap.VER.val.json
├─── captions_ext
│ cap.ext.VER.test1.json
│ cap.ext.VER.train.json
│ cap.ext.VER.val.json
├─── image_splits
│ split.VER.test1.json
│ split.VER.train.json
│ split.VER.val.json
├─── img_raw
│ ├── train
│ │ ├── 0 # sub-level folder structure inherited from NLVR2 (carries no special meaning in CIRR)
│ │ │ <IMG0_ID>.png
│ │ │ <IMG0_ID>.png
│ │ │ ...
│ │ ├── 1
│ │ │ <IMG0_ID>.png
│ │ │ <IMG0_ID>.png
│ │ │ ...
│ │ ├── 2
│ │ │ <IMG0_ID>.png
│ │ │ <IMG0_ID>.png
│ │ └── ...
│ ├── dev
│ │ <IMG0_ID>.png
│ │ <IMG1_ID>.png
│ │ ...
│ └── test1
│ <IMG0_ID>.png
│ <IMG1_ID>.png
│ ...
├─── img_feat_res152
│ <Same subfolder structure as above>
└─── img_feat_frcnn
<Same subfolder structure as above>
captions/cap.VER.SPLIT.json
Une liste d'éléments, où chaque élément contient des informations de base sur une paire requête-cible.
Les détails sur chaque entrée peuvent être trouvés dans le supplément. tapis. Seconde. G de notre article.
{ "pairid" : 12063 ,
"reference" : " test1-147-1-img1 " ,
"target_hard" : " test1-83-0-img1 " ,
"target_soft" : { "test1-83-0-img1" : 1.0 },
"caption" : " remove all but one dog and add a woman hugging it " ,
"img_set" : { "id" : 1 ,
"members" : [ " test1-147-1-img1 " ,
" test1-1001-2-img0 " ,
" test1-83-1-img1 " ,
" test1-359-0-img1 " ,
" test1-906-0-img1 " ,
" test1-83-0-img1 " ],
"reference_rank" : 3 ,
"target_rank" : 4 }
}
captions_ext/cap.ext.VER.SPLIT.json
Une liste d'éléments, où chaque élément contient des annotations auxiliaires sur une paire requête-cible.
Des détails sur les annotations auxiliaires peuvent être trouvés dans le supp. tapis. Seconde. C de notre article.
{ "pairid" : 12063 ,
"reference" : " test1-147-1-img1 " ,
"target_hard" : " test1-83-0-img1 " ,
"caption_extend" : { "0" : " being a photo of dogs " ,
"1" : " add a big dog " ,
"2" : " more focused on the hugging " ,
"3" : " background should contain grass " }
}
image_splits/split.VER.SPLIT.json
"test1-147-1-img1" : " ./test1/test1-147-1-img1.png " ,
# or
"train-11041-2-img0" : " ./train/34/train-11041-2-img0.png "
img_feat_<...>/
< IMG0_ID > = "test1-147-1-img1.png" . replace ( '.png' , '.pkl' )
test1-147-1-img1.pkl
, afin que chaque fichier puisse être directement indexé par son nom. Nous ne publions pas la vérité terrain pour la répartition des tests du CIRR. Au lieu de cela, un serveur d'évaluation est hébergé ici, si vous préférez publier les résultats sur la division de test. Les fonctions du serveur test-split seront mises à jour progressivement.
Voir les instructions du serveur de fractionnement de test.
Le serveur est hébergé indépendamment au CECS ANU, merci donc de nous envoyer un email si le site est en panne.
Nous avons concédé sous licence les annotations de CIRR sous la licence MIT. Veuillez vous référer au fichier LICENSE pour plus de détails.
Suite à la licence NLVR2, nous n'accordons pas de licence sur les images utilisées dans CIRR, car nous n'en détenons pas les droits d'auteur.
Les images utilisées dans CIRR proviennent de l'ensemble de données NLVR2. Les utilisateurs seront liés par ses conditions d'utilisation.
Veuillez citer notre article si cela aide votre recherche :
@InProceedings { Liu_2021_ICCV ,
author = { Liu, Zheyuan and Rodriguez-Opazo, Cristian and Teney, Damien and Gould, Stephen } ,
title = { Image Retrieval on Real-Life Images With Pre-Trained Vision-and-Language Models } ,
booktitle = { Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) } ,
month = { October } ,
year = { 2021 } ,
pages = { 2125-2134 }
}
Si vous avez des questions concernant notre ensemble de données, notre modèle ou notre publication, veuillez créer un problème dans le référentiel du projet ou nous envoyer un e-mail.