Этот репозиторий содержит набор данных « Поиск составных изображений по реальным изображениям» ( CIRR ).
Подробную информацию см. в нашем документе ICCV 2021 « Поиск изображений по реальным изображениям с помощью предварительно обученных моделей зрения и языка» .
В настоящее время вы просматриваете репозиторий набора данных . Навигация по сайту > Домашняя страница проекта | Репозиторий кода
Новости и предстоящие обновления
Наш набор данных структурирован аналогично Fashion-IQ, существующему набору данных по этой задаче. Файлы включают аннотации, необработанные изображения и дополнительные функции предварительно извлеченных изображений.
Получите аннотации:
# create a `data` folder at your desired location
mkdir data
cd data
# clone the cirr_dataset branch to the local data/cirr folder
git clone -b cirr_dataset [email protected]:Cuberick-Orion/CIRR.git cirr
Папка data/cirr
содержит все соответствующие аннотации. Структура файла описана ниже.
Обновлено в октябре 2024 г. Если у вас возникли проблемы с получением доступа к необработанным изображениям из NLVR2, свяжитесь с нами.
Начиная с конца 2023 года несколько исследовательских групп сообщили нам, что команда NLVR2 не отвечает на их запросы. Для этого выполните следующие шаги по получению необработанных изображений:
Важный
Репозиторий NLVR2 предоставляет еще один способ получения изображений — загрузку изображений по URL-адресам. Но мы не рекомендуем этого делать, так как многие ссылки нерабочие, а у загруженных файлов отсутствует структура подпапок в папке /train
.
Вместо этого следуйте приведенным выше инструкциям, чтобы напрямую загрузить необработанные изображения.
Доступные типы функций изображения:
Каждый предоставляемый нами zip
файл содержит папку с отдельными файлами изображений .pkl
.
После загрузки разархивируйте его в data/cirr/
, следуя приведенной ниже структуре файла.
data
└─── cirr
├─── captions
│ cap.VER.test1.json
│ cap.VER.train.json
│ cap.VER.val.json
├─── captions_ext
│ cap.ext.VER.test1.json
│ cap.ext.VER.train.json
│ cap.ext.VER.val.json
├─── image_splits
│ split.VER.test1.json
│ split.VER.train.json
│ split.VER.val.json
├─── img_raw
│ ├── train
│ │ ├── 0 # sub-level folder structure inherited from NLVR2 (carries no special meaning in CIRR)
│ │ │ <IMG0_ID>.png
│ │ │ <IMG0_ID>.png
│ │ │ ...
│ │ ├── 1
│ │ │ <IMG0_ID>.png
│ │ │ <IMG0_ID>.png
│ │ │ ...
│ │ ├── 2
│ │ │ <IMG0_ID>.png
│ │ │ <IMG0_ID>.png
│ │ └── ...
│ ├── dev
│ │ <IMG0_ID>.png
│ │ <IMG1_ID>.png
│ │ ...
│ └── test1
│ <IMG0_ID>.png
│ <IMG1_ID>.png
│ ...
├─── img_feat_res152
│ <Same subfolder structure as above>
└─── img_feat_frcnn
<Same subfolder structure as above>
captions/cap.VER.SPLIT.json
Список элементов, каждый из которых содержит основную информацию о паре запрос-цель.
Подробную информацию о каждой записи можно найти в файле support. мат. сек. G нашей статьи.
{ "pairid" : 12063 ,
"reference" : " test1-147-1-img1 " ,
"target_hard" : " test1-83-0-img1 " ,
"target_soft" : { "test1-83-0-img1" : 1.0 },
"caption" : " remove all but one dog and add a woman hugging it " ,
"img_set" : { "id" : 1 ,
"members" : [ " test1-147-1-img1 " ,
" test1-1001-2-img0 " ,
" test1-83-1-img1 " ,
" test1-359-0-img1 " ,
" test1-906-0-img1 " ,
" test1-83-0-img1 " ],
"reference_rank" : 3 ,
"target_rank" : 4 }
}
captions_ext/cap.ext.VER.SPLIT.json
Список элементов, каждый из которых содержит вспомогательные аннотации для пары запрос-цель.
Подробную информацию о вспомогательных аннотациях можно найти в доп. мат. сек. C нашей статьи.
{ "pairid" : 12063 ,
"reference" : " test1-147-1-img1 " ,
"target_hard" : " test1-83-0-img1 " ,
"caption_extend" : { "0" : " being a photo of dogs " ,
"1" : " add a big dog " ,
"2" : " more focused on the hugging " ,
"3" : " background should contain grass " }
}
image_splits/split.VER.SPLIT.json
"test1-147-1-img1" : " ./test1/test1-147-1-img1.png " ,
# or
"train-11041-2-img0" : " ./train/34/train-11041-2-img0.png "
img_feat_<...>/
< IMG0_ID > = "test1-147-1-img1.png" . replace ( '.png' , '.pkl' )
test1-147-1-img1.pkl
, чтобы каждый файл можно было напрямую индексировать по его имени. Мы не публикуем основную информацию о тестовом разделении CIRR. Вместо этого здесь размещается оценочный сервер, если вы предпочитаете публиковать результаты в тестовом режиме. Функции тестового сплит-сервера будут постепенно обновляться.
См. инструкции по тестовому разделению сервера.
Сервер размещен независимо в CECS ANU, поэтому, если сайт не работает, напишите нам.
Мы лицензировали аннотации CIRR по лицензии MIT. Подробности см. в файле ЛИЦЕНЗИИ.
В соответствии с лицензированием NLVR2 мы не лицензируем изображения, используемые в CIRR, поскольку не обладаем авторскими правами на них.
Изображения, используемые в CIRR, взяты из набора данных NLVR2. Пользователи обязаны соблюдать Условия обслуживания.
Пожалуйста, цитируйте нашу статью, если она поможет вашему исследованию:
@InProceedings { Liu_2021_ICCV ,
author = { Liu, Zheyuan and Rodriguez-Opazo, Cristian and Teney, Damien and Gould, Stephen } ,
title = { Image Retrieval on Real-Life Images With Pre-Trained Vision-and-Language Models } ,
booktitle = { Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) } ,
month = { October } ,
year = { 2021 } ,
pages = { 2125-2134 }
}
Если у вас есть какие-либо вопросы относительно нашего набора данных, модели или публикации, создайте проблему в репозитории проекта или напишите нам.