Download CIRR - Download do código-fonte CIRR

CIRR

Outro código-fonte

1.0.0

Baixar

Recuperação de imagens compostas em imagens da vida real

Este repositório contém o conjunto de dados Composed Image R etrieval on R eal-life images ( CIRR ).

Para obter detalhes, consulte nosso artigo ICCV 2021 - Recuperação de imagens em imagens da vida real com modelos de visão e linguagem pré-treinados .

^{Você está visualizando o repositório do conjunto de dados . Navegação no site > Página inicial do projeto | Repositório de código}

Notícias e próximas atualizações

Out 2024 Entre em contato conosco se tiver problemas para obter acesso às imagens raw do NLVR2.
Junho de 2024 Os links para download foram atualizados.
Observe que há um erro de digitação em nosso artigo (Tabela 2) - o número de pares em val é ~~4.184~~ 4.181.

Baixe o conjunto de dados CIRR

Nosso conjunto de dados está estruturado de forma semelhante ao Fashion-IQ, um conjunto de dados existente sobre esta tarefa. Os arquivos incluem anotações, imagens brutas e recursos opcionais de imagem pré-extraída.

Anotações

Obtenha as anotações por:

 # create a `data` folder at your desired location
mkdir data
cd data

# clone the cirr_dataset branch to the local data/cirr folder
git clone -b cirr_dataset [email protected]:Cuberick-Orion/CIRR.git cirr

A pasta data/cirr contém todas as anotações relevantes. A estrutura do arquivo é descrita abaixo.

Imagens brutas

Atualizado em outubro de 2024 – Entre em contato conosco se tiver problemas para obter acesso às imagens brutas do NLVR2.

A partir do final de 2023, vários grupos de pesquisa nos informaram que a equipe NLVR2 não está respondendo às suas solicitações. Para tanto, siga os seguintes passos na obtenção das imagens raw:

Primeiro entre em contato com a equipe NLVR e preencha um formulário do Google concordando com os termos de serviço. As instruções estão aqui.
Se você não receber resposta da equipe NLVR, envie-nos um e-mail.
Ao entrar em contato conosco, declare explicitamente que você preencheu o formulário do Google da equipe NLVR concordando com os termos de serviço.

Importante

O repositório NLVR2 disponibiliza outra forma de obtenção das imagens, que é baixando as imagens por URLs. Mas não recomendamos isso, pois muitos dos links estão quebrados e os arquivos baixados não possuem a estrutura de subpastas na pasta /train .

Em vez disso, siga as instruções acima para baixar diretamente as imagens brutas.

Recursos de imagem pré-extraídos

Os tipos de recursos de imagem disponíveis são:

Recursos pré-treinados do ResNet152 do ImageNet
- pode ser extraído de imagens brutas
- ou baixe nossos recursos pré-extraídos
Recursos regionais da imagem F-RCNN
- fornecido pela OSCAR à medida que obtemos nossas imagens do NLVR2
- baixe o subconjunto de recursos usados no CIRR (imagens não utilizadas filtradas e compactadas novamente por nós)
- alternativamente, baixe diretamente do OSCAR

Cada arquivo zip que fornecemos contém uma pasta de arquivos de recursos de imagem individuais .pkl .

Depois de baixado, descompacte-o em data/cirr/ , seguindo a estrutura do arquivo abaixo.

Estrutura do arquivo do conjunto de dados

O conjunto de dados baixado deve ficar assim (clique para expandir)

 data
└─── cirr
    ├─── captions
    │        cap.VER.test1.json
    │        cap.VER.train.json
    │        cap.VER.val.json
    ├─── captions_ext
    │        cap.ext.VER.test1.json
    │        cap.ext.VER.train.json
    │        cap.ext.VER.val.json
    ├─── image_splits
    │        split.VER.test1.json
    │        split.VER.train.json
    │        split.VER.val.json
    ├─── img_raw  
    │    ├── train
    │    │    ├── 0 # sub-level folder structure inherited from NLVR2 (carries no special meaning in CIRR)
    │    │    │    <IMG0_ID>.png
    │    │    │    <IMG0_ID>.png
    │    │    │         ...
    │    │    ├── 1
    │    │    │    <IMG0_ID>.png
    │    │    │    <IMG0_ID>.png
    │    │    │         ...
    │    │    ├── 2
    │    │    │    <IMG0_ID>.png
    │    │    │    <IMG0_ID>.png
    │    │    └──       ...
    │    ├── dev         
    │    │      <IMG0_ID>.png
    │    │      <IMG1_ID>.png
    │    │           ...
    │    └── test1       
    │           <IMG0_ID>.png
    │           <IMG1_ID>.png
    │                ...
    ├─── img_feat_res152 
    │        <Same subfolder structure as above>
    └─── img_feat_frcnn         
             <Same subfolder structure as above>

Descrição do arquivo do conjunto de dados

captions/cap.VER.SPLIT.json

Uma lista de elementos, onde cada elemento contém informações básicas sobre um par consulta-alvo.
Detalhes sobre cada entrada podem ser encontrados no sup. esteira. Seg. G do nosso artigo.

Clique para ver um exemplo

    { "pairid" : 12063 , 
    "reference" :   " test1-147-1-img1 " , 
    "target_hard" : " test1-83-0-img1 " , 
    "target_soft" : { "test1-83-0-img1" : 1.0 }, 
    "caption" : " remove all but one dog and add a woman hugging   it " , 
    "img_set" : { "id" : 1 , 
                "members" : [ " test1-147-1-img1 " , 
                            " test1-1001-2-img0 " ,  
                            " test1-83-1-img1 " ,           
                            " test1-359-0-img1 " ,  
                            " test1-906-0-img1 " , 
                            " test1-83-0-img1 " ],
                "reference_rank" : 3 , 
                "target_rank" : 4 }
    }

captions_ext/cap.ext.VER.SPLIT.json

Uma lista de elementos, onde cada elemento contém anotações auxiliares em um par consulta-alvo.
Detalhes sobre as anotações auxiliares podem ser encontrados no supp. esteira. Seg. C do nosso artigo.

Clique para ver um exemplo

    { "pairid" : 12063 , 
    "reference" :   " test1-147-1-img1 " , 
    "target_hard" : " test1-83-0-img1 " , 
    "caption_extend" : { "0" : " being a photo of dogs " , 
                      "1" : " add a big dog " , 
                      "2" : " more focused on the hugging " , 
                      "3" : " background should contain grass " }
    }

image_splits/split.VER.SPLIT.json
- Um dicionário, onde cada par chave:valor mapeia um nome de arquivo de imagem para o caminho relativo do arquivo img, exemplo:
```
 "test1-147-1-img1" : " ./test1/test1-147-1-img1.png " ,
# or
"train-11041-2-img0" : " ./train/34/train-11041-2-img0.png "
```
- nomes de arquivos de imagem e estruturas de pastas de subnível (divisão de trem) são preservados do conjunto de dados NLVR2.
img_feat_<...>/
- Uma pasta contendo um determinado tipo de recursos de imagem pré-extraídos, cada arquivo salva o recurso de uma imagem.
- O nome do arquivo é gerado como tal:
```
 < IMG0_ID > = "test1-147-1-img1.png" . replace ( '.png' , '.pkl' )
```
  neste caso, test1-147-1-img1.pkl , para que cada arquivo possa ser indexado diretamente pelo seu nome.

Servidor de avaliação de divisão de teste

Não publicamos a verdade básica para a divisão de teste do CIRR. Em vez disso, um servidor de avaliação está hospedado aqui, caso você prefira publicar os resultados na divisão de teste. As funções do servidor de divisão de teste serão atualizadas gradativamente.

Consulte as instruções do servidor de divisão de teste.

O servidor está hospedado de forma independente no CECS ANU, portanto, envie-nos um e-mail se o site estiver fora do ar.

Licença

Licenciamos as anotações do CIRR sob a licença MIT. Consulte o arquivo LICENSE para obter detalhes.
Seguindo o licenciamento NLVR2, não licenciamos as imagens usadas no CIRR, pois não detemos os direitos autorais delas.
As imagens usadas no CIRR são provenientes do conjunto de dados NLVR2. Os usuários estarão sujeitos aos seus Termos de Serviço.

Citação

Por favor, cite nosso artigo se isso ajudar em sua pesquisa:

 @InProceedings { Liu_2021_ICCV ,
    author    = { Liu, Zheyuan and Rodriguez-Opazo, Cristian and Teney, Damien and Gould, Stephen } ,
    title     = { Image Retrieval on Real-Life Images With Pre-Trained Vision-and-Language Models } ,
    booktitle = { Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) } ,
    month     = { October } ,
    year      = { 2021 } ,
    pages     = { 2125-2134 }
}