Dieses Repository enthält den Datensatz „ Composed Image Retrieval on Real -Life Images“ ( CIRR ).
Weitere Informationen finden Sie in unserem ICCV 2021-Papier – Image Retrieval on Real-Life Images with Pre-trained Vision-and-Language Models .
Sie sehen sich derzeit das Dataset-Repository an. Site-Navigation > Projekt-Homepage | Code-Repository
Neuigkeiten und bevorstehende Updates
Unser Datensatz ist ähnlich aufgebaut wie Fashion-IQ, ein bestehender Datensatz zu dieser Aufgabe. Die Dateien enthalten Anmerkungen, Rohbilder und die optionalen vorextrahierten Bildfunktionen.
Erhalten Sie die Anmerkungen durch:
# create a `data` folder at your desired location
mkdir data
cd data
# clone the cirr_dataset branch to the local data/cirr folder
git clone -b cirr_dataset [email protected]:Cuberick-Orion/CIRR.git cirr
Der Ordner data/cirr
enthält alle relevanten Anmerkungen. Die Dateistruktur wird unten beschrieben.
Aktualisiert im Oktober 2024 – Bitte kontaktieren Sie uns, wenn Sie Probleme beim Zugriff auf die Rohbilder von NLVR2 haben.
Ab Ende 2023 wurden wir von mehreren Forschungsgruppen darauf aufmerksam gemacht, dass das NLVR2-Team nicht auf ihre Anfragen reagiert. Beachten Sie dazu bitte die folgenden Schritte zum Erhalten der Rohbilder:
Wichtig
Das NLVR2-Repository bietet eine weitere Möglichkeit, die Bilder zu erhalten, nämlich das Herunterladen der Bilder über URLs. Wir empfehlen dies jedoch nicht , da viele der Links defekt sind und den heruntergeladenen Dateien die Unterordnerstruktur im Ordner /train
fehlt.
Befolgen Sie stattdessen bitte die obige Anleitung, um die Rohbilder direkt herunterzuladen.
Die verfügbaren Arten von Bildfunktionen sind:
Jede von uns bereitgestellte zip
Datei enthält einen Ordner mit einzelnen Bildfunktionsdateien .pkl
.
Entpacken Sie es nach dem Herunterladen in data/cirr/
und folgen Sie dabei der Dateistruktur unten.
data
└─── cirr
├─── captions
│ cap.VER.test1.json
│ cap.VER.train.json
│ cap.VER.val.json
├─── captions_ext
│ cap.ext.VER.test1.json
│ cap.ext.VER.train.json
│ cap.ext.VER.val.json
├─── image_splits
│ split.VER.test1.json
│ split.VER.train.json
│ split.VER.val.json
├─── img_raw
│ ├── train
│ │ ├── 0 # sub-level folder structure inherited from NLVR2 (carries no special meaning in CIRR)
│ │ │ <IMG0_ID>.png
│ │ │ <IMG0_ID>.png
│ │ │ ...
│ │ ├── 1
│ │ │ <IMG0_ID>.png
│ │ │ <IMG0_ID>.png
│ │ │ ...
│ │ ├── 2
│ │ │ <IMG0_ID>.png
│ │ │ <IMG0_ID>.png
│ │ └── ...
│ ├── dev
│ │ <IMG0_ID>.png
│ │ <IMG1_ID>.png
│ │ ...
│ └── test1
│ <IMG0_ID>.png
│ <IMG1_ID>.png
│ ...
├─── img_feat_res152
│ <Same subfolder structure as above>
└─── img_feat_frcnn
<Same subfolder structure as above>
captions/cap.VER.SPLIT.json
Eine Liste von Elementen, wobei jedes Element Kerninformationen zu einem Abfrage-Ziel-Paar enthält.
Einzelheiten zu den einzelnen Einträgen finden Sie im Supp. Matte. Sek. G unseres Papiers.
{ "pairid" : 12063 ,
"reference" : " test1-147-1-img1 " ,
"target_hard" : " test1-83-0-img1 " ,
"target_soft" : { "test1-83-0-img1" : 1.0 },
"caption" : " remove all but one dog and add a woman hugging it " ,
"img_set" : { "id" : 1 ,
"members" : [ " test1-147-1-img1 " ,
" test1-1001-2-img0 " ,
" test1-83-1-img1 " ,
" test1-359-0-img1 " ,
" test1-906-0-img1 " ,
" test1-83-0-img1 " ],
"reference_rank" : 3 ,
"target_rank" : 4 }
}
captions_ext/cap.ext.VER.SPLIT.json
Eine Liste von Elementen, wobei jedes Element zusätzliche Anmerkungen zu einem Abfrage-Ziel-Paar enthält.
Einzelheiten zu den Hilfsanmerkungen finden Sie im Supp. Matte. Sek. C unserer Arbeit.
{ "pairid" : 12063 ,
"reference" : " test1-147-1-img1 " ,
"target_hard" : " test1-83-0-img1 " ,
"caption_extend" : { "0" : " being a photo of dogs " ,
"1" : " add a big dog " ,
"2" : " more focused on the hugging " ,
"3" : " background should contain grass " }
}
image_splits/split.VER.SPLIT.json
"test1-147-1-img1" : " ./test1/test1-147-1-img1.png " ,
# or
"train-11041-2-img0" : " ./train/34/train-11041-2-img0.png "
img_feat_<...>/
< IMG0_ID > = "test1-147-1-img1.png" . replace ( '.png' , '.pkl' )
test1-147-1-img1.pkl
, sodass jede Datei direkt anhand ihres Namens indiziert werden kann. Wir veröffentlichen die Grundwahrheit für die Testaufteilung von CIRR nicht. Stattdessen wird hier ein Auswertungsserver gehostet, falls Sie die Ergebnisse lieber im Test-Split veröffentlichen möchten. Die Funktionen des Test-Split-Servers werden schrittweise aktualisiert.
Siehe Anweisungen zum Test-Split-Server.
Der Server wird unabhängig bei CECS ANU gehostet. Bitte senden Sie uns eine E-Mail, wenn die Website nicht verfügbar ist.
Wir haben die Anmerkungen von CIRR unter der MIT-Lizenz lizenziert. Weitere Informationen finden Sie in der LIZENZ-Datei.
Gemäß der NLVR2-Lizenzierung lizenzieren wir die in CIRR verwendeten Bilder nicht, da wir nicht das Urheberrecht an ihnen besitzen.
Die in CIRR verwendeten Bilder stammen aus dem NLVR2-Datensatz. Benutzer sind an die Nutzungsbedingungen gebunden.
Bitte zitieren Sie unser Papier, wenn es Ihrer Forschung hilft:
@InProceedings { Liu_2021_ICCV ,
author = { Liu, Zheyuan and Rodriguez-Opazo, Cristian and Teney, Damien and Gould, Stephen } ,
title = { Image Retrieval on Real-Life Images With Pre-Trained Vision-and-Language Models } ,
booktitle = { Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) } ,
month = { October } ,
year = { 2021 } ,
pages = { 2125-2134 }
}
Wenn Sie Fragen zu unserem Datensatz, Modell oder unserer Veröffentlichung haben, erstellen Sie bitte ein Problem im Projekt-Repository oder senden Sie uns eine E-Mail.