Repositori ini berisi kumpulan data Pengambilan Gambar Kehidupan Nyata ( CIRR ) Tersusun .
Untuk detailnya, silakan lihat makalah ICCV 2021 kami - Pengambilan Gambar pada Gambar Kehidupan Nyata dengan Model Penglihatan dan Bahasa yang telah dilatih sebelumnya .
Anda sedang melihat repositori Dataset . Navigasi situs > Beranda proyek | Repositori kode
Berita dan Pembaruan Mendatang
Kumpulan data kami disusun dengan cara yang mirip dengan Fashion-IQ, kumpulan data yang ada untuk tugas ini. File tersebut mencakup anotasi, gambar mentah, dan fitur gambar pra-ekstraksi opsional.
Dapatkan anotasi dengan:
# create a `data` folder at your desired location
mkdir data
cd data
# clone the cirr_dataset branch to the local data/cirr folder
git clone -b cirr_dataset [email protected]:Cuberick-Orion/CIRR.git cirr
Folder data/cirr
berisi semua anotasi yang relevan. Struktur file dijelaskan di bawah ini.
Diperbarui Oktober 2024 -- Silakan hubungi kami jika Anda mengalami kesulitan mendapatkan akses ke gambar mentah dari NLVR2.
Mulai akhir tahun 2023, kami diberitahu oleh beberapa kelompok penelitian bahwa tim NLVR2 tidak menanggapi permintaan mereka. Untuk itu, silakan lihat langkah-langkah berikut dalam mendapatkan gambar mentah:
Penting
Repositori NLVR2 menyediakan cara lain untuk mendapatkan gambar, yaitu mengunduh gambar berdasarkan URL. Namun kami tidak merekomendasikannya, karena banyak tautan yang rusak, dan file yang diunduh tidak memiliki struktur sub-folder di folder /train
.
Sebagai gantinya, silakan ikuti instruksi di atas untuk langsung mengunduh gambar mentahnya.
Jenis fitur gambar yang tersedia adalah:
Setiap file zip
yang kami sediakan berisi folder file fitur gambar individual .pkl
.
Setelah diunduh, unzip ke data/cirr/
, mengikuti struktur file di bawah ini.
data
└─── cirr
├─── captions
│ cap.VER.test1.json
│ cap.VER.train.json
│ cap.VER.val.json
├─── captions_ext
│ cap.ext.VER.test1.json
│ cap.ext.VER.train.json
│ cap.ext.VER.val.json
├─── image_splits
│ split.VER.test1.json
│ split.VER.train.json
│ split.VER.val.json
├─── img_raw
│ ├── train
│ │ ├── 0 # sub-level folder structure inherited from NLVR2 (carries no special meaning in CIRR)
│ │ │ <IMG0_ID>.png
│ │ │ <IMG0_ID>.png
│ │ │ ...
│ │ ├── 1
│ │ │ <IMG0_ID>.png
│ │ │ <IMG0_ID>.png
│ │ │ ...
│ │ ├── 2
│ │ │ <IMG0_ID>.png
│ │ │ <IMG0_ID>.png
│ │ └── ...
│ ├── dev
│ │ <IMG0_ID>.png
│ │ <IMG1_ID>.png
│ │ ...
│ └── test1
│ <IMG0_ID>.png
│ <IMG1_ID>.png
│ ...
├─── img_feat_res152
│ <Same subfolder structure as above>
└─── img_feat_frcnn
<Same subfolder structure as above>
captions/cap.VER.SPLIT.json
Daftar elemen, yang setiap elemennya berisi informasi inti pada pasangan target kueri.
Detail tentang setiap entri dapat ditemukan di supp. tikar. Detik. G makalah kami.
{ "pairid" : 12063 ,
"reference" : " test1-147-1-img1 " ,
"target_hard" : " test1-83-0-img1 " ,
"target_soft" : { "test1-83-0-img1" : 1.0 },
"caption" : " remove all but one dog and add a woman hugging it " ,
"img_set" : { "id" : 1 ,
"members" : [ " test1-147-1-img1 " ,
" test1-1001-2-img0 " ,
" test1-83-1-img1 " ,
" test1-359-0-img1 " ,
" test1-906-0-img1 " ,
" test1-83-0-img1 " ],
"reference_rank" : 3 ,
"target_rank" : 4 }
}
captions_ext/cap.ext.VER.SPLIT.json
Daftar elemen, yang setiap elemennya berisi anotasi tambahan pada pasangan target kueri.
Rincian tentang anotasi tambahan dapat ditemukan di supp. tikar. Detik. C makalah kami.
{ "pairid" : 12063 ,
"reference" : " test1-147-1-img1 " ,
"target_hard" : " test1-83-0-img1 " ,
"caption_extend" : { "0" : " being a photo of dogs " ,
"1" : " add a big dog " ,
"2" : " more focused on the hugging " ,
"3" : " background should contain grass " }
}
image_splits/split.VER.SPLIT.json
"test1-147-1-img1" : " ./test1/test1-147-1-img1.png " ,
# or
"train-11041-2-img0" : " ./train/34/train-11041-2-img0.png "
img_feat_<...>/
< IMG0_ID > = "test1-147-1-img1.png" . replace ( '.png' , '.pkl' )
test1-147-1-img1.pkl
, sehingga setiap file dapat langsung diindeks berdasarkan namanya. Kami tidak mempublikasikan kebenaran dasar untuk pengujian CIRR. Sebaliknya, server evaluasi dihosting di sini, jika Anda memilih untuk mempublikasikan hasil pada pemisahan tes. Fungsi server test-split akan diperbarui secara bertahap.
Lihat instruksi server pemisahan pengujian.
Server dihosting secara independen di CECS ANU, jadi silakan kirim email kepada kami jika situs sedang tidak aktif.
Kami telah melisensikan anotasi CIRR di bawah Lisensi MIT. Silakan merujuk ke file LISENSI untuk detailnya.
Setelah Lisensi NLVR2, kami tidak melisensikan gambar yang digunakan dalam CIRR, karena kami tidak memegang hak cipta atas gambar tersebut.
Gambar yang digunakan di CIRR bersumber dari dataset NLVR2. Pengguna terikat oleh Ketentuan Layanannya.
Silakan kutip makalah kami jika itu membantu penelitian Anda:
@InProceedings { Liu_2021_ICCV ,
author = { Liu, Zheyuan and Rodriguez-Opazo, Cristian and Teney, Damien and Gould, Stephen } ,
title = { Image Retrieval on Real-Life Images With Pre-Trained Vision-and-Language Models } ,
booktitle = { Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) } ,
month = { October } ,
year = { 2021 } ,
pages = { 2125-2134 }
}
Jika Anda memiliki pertanyaan mengenai kumpulan data, model, atau publikasi kami, silakan buat masalah di repositori proyek, atau kirim email kepada kami.