Este repositório contém o conjunto de dados Composed Image R etrieval on R eal-life images ( CIRR ).
Para obter detalhes, consulte nosso artigo ICCV 2021 - Recuperação de imagens em imagens da vida real com modelos de visão e linguagem pré-treinados .
Você está visualizando o repositório do conjunto de dados . Navegação no site > Página inicial do projeto | Repositório de código
Notícias e próximas atualizações
Nosso conjunto de dados está estruturado de forma semelhante ao Fashion-IQ, um conjunto de dados existente sobre esta tarefa. Os arquivos incluem anotações, imagens brutas e recursos opcionais de imagem pré-extraída.
Obtenha as anotações por:
# create a `data` folder at your desired location
mkdir data
cd data
# clone the cirr_dataset branch to the local data/cirr folder
git clone -b cirr_dataset [email protected]:Cuberick-Orion/CIRR.git cirr
A pasta data/cirr
contém todas as anotações relevantes. A estrutura do arquivo é descrita abaixo.
Atualizado em outubro de 2024 – Entre em contato conosco se tiver problemas para obter acesso às imagens brutas do NLVR2.
A partir do final de 2023, vários grupos de pesquisa nos informaram que a equipe NLVR2 não está respondendo às suas solicitações. Para tanto, siga os seguintes passos na obtenção das imagens raw:
Importante
O repositório NLVR2 disponibiliza outra forma de obtenção das imagens, que é baixando as imagens por URLs. Mas não recomendamos isso, pois muitos dos links estão quebrados e os arquivos baixados não possuem a estrutura de subpastas na pasta /train
.
Em vez disso, siga as instruções acima para baixar diretamente as imagens brutas.
Os tipos de recursos de imagem disponíveis são:
Cada arquivo zip
que fornecemos contém uma pasta de arquivos de recursos de imagem individuais .pkl
.
Depois de baixado, descompacte-o em data/cirr/
, seguindo a estrutura do arquivo abaixo.
data
└─── cirr
├─── captions
│ cap.VER.test1.json
│ cap.VER.train.json
│ cap.VER.val.json
├─── captions_ext
│ cap.ext.VER.test1.json
│ cap.ext.VER.train.json
│ cap.ext.VER.val.json
├─── image_splits
│ split.VER.test1.json
│ split.VER.train.json
│ split.VER.val.json
├─── img_raw
│ ├── train
│ │ ├── 0 # sub-level folder structure inherited from NLVR2 (carries no special meaning in CIRR)
│ │ │ <IMG0_ID>.png
│ │ │ <IMG0_ID>.png
│ │ │ ...
│ │ ├── 1
│ │ │ <IMG0_ID>.png
│ │ │ <IMG0_ID>.png
│ │ │ ...
│ │ ├── 2
│ │ │ <IMG0_ID>.png
│ │ │ <IMG0_ID>.png
│ │ └── ...
│ ├── dev
│ │ <IMG0_ID>.png
│ │ <IMG1_ID>.png
│ │ ...
│ └── test1
│ <IMG0_ID>.png
│ <IMG1_ID>.png
│ ...
├─── img_feat_res152
│ <Same subfolder structure as above>
└─── img_feat_frcnn
<Same subfolder structure as above>
captions/cap.VER.SPLIT.json
Uma lista de elementos, onde cada elemento contém informações básicas sobre um par consulta-alvo.
Detalhes sobre cada entrada podem ser encontrados no sup. esteira. Seg. G do nosso artigo.
{ "pairid" : 12063 ,
"reference" : " test1-147-1-img1 " ,
"target_hard" : " test1-83-0-img1 " ,
"target_soft" : { "test1-83-0-img1" : 1.0 },
"caption" : " remove all but one dog and add a woman hugging it " ,
"img_set" : { "id" : 1 ,
"members" : [ " test1-147-1-img1 " ,
" test1-1001-2-img0 " ,
" test1-83-1-img1 " ,
" test1-359-0-img1 " ,
" test1-906-0-img1 " ,
" test1-83-0-img1 " ],
"reference_rank" : 3 ,
"target_rank" : 4 }
}
captions_ext/cap.ext.VER.SPLIT.json
Uma lista de elementos, onde cada elemento contém anotações auxiliares em um par consulta-alvo.
Detalhes sobre as anotações auxiliares podem ser encontrados no supp. esteira. Seg. C do nosso artigo.
{ "pairid" : 12063 ,
"reference" : " test1-147-1-img1 " ,
"target_hard" : " test1-83-0-img1 " ,
"caption_extend" : { "0" : " being a photo of dogs " ,
"1" : " add a big dog " ,
"2" : " more focused on the hugging " ,
"3" : " background should contain grass " }
}
image_splits/split.VER.SPLIT.json
"test1-147-1-img1" : " ./test1/test1-147-1-img1.png " ,
# or
"train-11041-2-img0" : " ./train/34/train-11041-2-img0.png "
img_feat_<...>/
< IMG0_ID > = "test1-147-1-img1.png" . replace ( '.png' , '.pkl' )
test1-147-1-img1.pkl
, para que cada arquivo possa ser indexado diretamente pelo seu nome. Não publicamos a verdade básica para a divisão de teste do CIRR. Em vez disso, um servidor de avaliação está hospedado aqui, caso você prefira publicar os resultados na divisão de teste. As funções do servidor de divisão de teste serão atualizadas gradativamente.
Consulte as instruções do servidor de divisão de teste.
O servidor está hospedado de forma independente no CECS ANU, portanto, envie-nos um e-mail se o site estiver fora do ar.
Licenciamos as anotações do CIRR sob a licença MIT. Consulte o arquivo LICENSE para obter detalhes.
Seguindo o licenciamento NLVR2, não licenciamos as imagens usadas no CIRR, pois não detemos os direitos autorais delas.
As imagens usadas no CIRR são provenientes do conjunto de dados NLVR2. Os usuários estarão sujeitos aos seus Termos de Serviço.
Por favor, cite nosso artigo se isso ajudar em sua pesquisa:
@InProceedings { Liu_2021_ICCV ,
author = { Liu, Zheyuan and Rodriguez-Opazo, Cristian and Teney, Damien and Gould, Stephen } ,
title = { Image Retrieval on Real-Life Images With Pre-Trained Vision-and-Language Models } ,
booktitle = { Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) } ,
month = { October } ,
year = { 2021 } ,
pages = { 2125-2134 }
}
Se você tiver alguma dúvida sobre nosso conjunto de dados, modelo ou publicação, crie um problema no repositório do projeto ou envie-nos um e-mail.