Conjuntos de dados de imagem de geração de texto controlado
Conjunto de dados controlável de geração de texto para imagem
Conjunto de dados 2D
1. Conjunto de dados pré-treinamento
Conjunto de dados Noah-Wukong
- Endereço: https://wukong-dataset.github.io/wukong-dataset/download.html
- Introdução: O conjunto de dados Noah-Wukong é um conjunto de dados chinês multimodal em grande escala. Este conjunto de dados contém 100 milhões de pares .
Zero: Ajuste fino de modelos de difusão de texto para imagem para geração baseada em tópicos
- Endereço: https://zero.so.com/download.html
- Introdução: Zero é um benchmark cross-modal chinês em grande escala, que consiste em dois conjuntos de dados de pré-treinamento chamados Zero-Corpus e cinco conjuntos de dados downstream.
- Conjunto de dados pré-treinamento 23 milhões de conjuntos de dados (zero corpus). O corpus zero é coletado de mecanismos de busca e contém imagens e descrições de texto correspondentes, filtradas a partir de 5 bilhões de pares imagem-texto com base nas taxas de cliques do usuário. 2,3 milhões de conjuntos de dados (Zero-Corpus-Sub). Subdataset do corpus nulo. O treinamento de um modelo VLP em um corpus zero pode exigir extensos recursos de GPU, portanto, um subconjunto de dados contendo 10% de pares imagem-texto também é fornecido para fins de pesquisa.
- Conjunto de dados downstream
- O ICM foi projetado para tarefas de correspondência de imagem e texto. Ele contém 400.000 pares imagem-texto, incluindo 200.000 exemplos positivos e 200.000 exemplos negativos.
- IQM também é um conjunto de dados usado para tarefas de correspondência de imagem e texto. Ao contrário do ICM, usamos consultas de pesquisa em vez de texto de descrição detalhada. Da mesma forma, o IQM contém 200 mil casos positivos e 200 mil casos negativos.
- ICR coletamos 200.000 pares imagem-texto. Ele contém tarefas de recuperação de imagem para texto e de texto para imagem.
- IQR IQR também foi proposto para tarefas de recuperação de imagens e textos. Selecionamos aleatoriamente 200.000 consultas e imagens correspondentes como pares anotados de consulta de imagem semelhantes ao IQM.
- Flickr30k-CNA Reunimos linguistas profissionais inglês-chinês para retraduzir cuidadosamente todos os dados do Flickr30k e verificar cuidadosamente cada frase. Beijing Magic Data Technology Co., Ltd. contribuiu para a tradução deste conjunto de dados.
Conjunto de dados Flickr 30k
- Endereço: https://shannon.cs.illinois.edu/DenotationGraph/data/index.html
- Introdução: O conjunto de dados Flickr 30k consiste em imagens obtidas do Flickr.
Conjunto de dados do genoma visual
- Endereço: http://visualgenome.org/
- Introdução: Visual Genome é um conjunto de dados de compreensão semântica de imagens em grande escala lançado por Li Feifei em 2016, incluindo dados de imagens e perguntas e respostas. As anotações são densas e a semântica é diversa. Este conjunto de dados contém 5 milhões de pares de imagem-texto.
Conjunto de dados de legendas conceituais (CC)
- Endereço: https://ai.google.com/research/ConceptualCaptions/download
- Introdução: Legendas conceituais (CC) são dados multimodais anotados não humanos, incluindo URL de imagem e legendas. A descrição da legenda correspondente é filtrada do atributo de texto alternativo do site. O conjunto de dados CC é dividido em duas versões: CC3M (aproximadamente 3,3 milhões de pares imagem-texto) e CC12M (aproximadamente 12 milhões de pares imagem-texto) devido a diferentes volumes de dados.
Conjunto de dados YFCC100M
- Endereço: http://projects.dfki.uni-kl.de/yfcc100m/
- Introdução: O banco de dados YFCC100M é um banco de dados de imagens baseado no Yahoo Flickr desde 2014. O banco de dados consiste em 100 milhões de dados de mídia gerados entre 2004 e 2014, incluindo 99,2 milhões de dados fotográficos e 800 mil dados de vídeo. O conjunto de dados YFCC100M estabelece um documento de dados de texto com base no banco de dados. Cada linha do documento é um pedaço de metadados de uma foto ou vídeo.
Conjunto de dados ALT200M
- Endereço: Nenhum
- [Introdução]: ALT200M é um conjunto de dados de imagem-texto em grande escala construído pela equipe da Microsoft para estudar as características das tendências de escala em tarefas de descrição. Este conjunto de dados contém 200 milhões de pares imagem-texto. A descrição de texto correspondente é filtrada do atributo de texto alternativo do site. (Conjunto de dados privado, sem link de conjunto de dados)
Conjunto de dados LAION-400M
- Endereço: https://laion.ai/blog/laion-400-open-dataset/
- Introdução: LAION-400M obtém texto e imagens de páginas da web de 2014 a 2021 por meio do CommonCrwal e, em seguida, usa CLIP para filtrar pares imagem-texto com similaridade de incorporação de imagem e texto inferior a 0,3, retendo, em última análise, 400 milhões de pares imagem-texto. Porém, o LAION-400M contém um grande número de imagens desconfortáveis, o que tem maior impacto na tarefa de geração de texto e imagem. Muitas pessoas usam esse conjunto de dados para gerar imagens pornográficas, com resultados negativos. Portanto, conjuntos de dados maiores e mais limpos tornam-se um requisito.
Conjunto de dados LAION-5B
- Endereço: https://laion.ai/blog/laion-5b/
- Introdução: LAION-5B é o maior conjunto de dados multimodal atualmente conhecido e de código aberto. Ele obtém texto e imagens por meio do CommonCrawl e, em seguida, usa o CLIP para filtrar pares imagem-texto cuja similaridade de incorporação de imagem e texto é inferior a 0,28, retendo, em última análise, 5 bilhões de pares imagem-texto. O conjunto de dados contém 2,32 bilhões de descrições em inglês, 2,26 bilhões em mais de 100 idiomas e 1,27 bilhão de idiomas desconhecidos.
Conjunto de dados de texto de imagem (WIT) baseado na Wikipedia Conjunto de dados de texto de imagem (WIT) baseado na Wikipedia
- Endereço: https://github.com/google-research-datasets/wit/blob/main/DATA.md
- Introdução: O conjunto de dados WIT (texto de imagem baseado na Wikipedia) é um grande conjunto de dados multimodal e multilíngue que contém mais de 37 milhões de conjuntos de imagens e textos contendo mais de 11 milhões de imagens exclusivas em mais de 100 idiomas. Fornecemos o WIT como um conjunto de 10 arquivos tsv (zipados). O tamanho total do conjunto de dados é de aproximadamente 25 GB. Este é todo o conjunto de dados de treinamento. Se você quiser começar rapidamente, escolha qualquer um dos arquivos de aproximadamente 2,5 GB que fornecerão aproximadamente 10% dos dados e conterão um conjunto de aproximadamente 3,5 milhões de exemplos de texto de imagem. Também incluímos conjuntos de validação e teste (5 arquivos cada).
Conjunto de dados LAION-5B
- Endereço: https://laion.ai/blog/laion-5b/
- Introdução: LAION-5B é o maior conjunto de dados multimodal atualmente conhecido e de código aberto. Ele obtém texto e imagens por meio do CommonCrawl e, em seguida, usa o CLIP para filtrar pares imagem-texto cuja similaridade de incorporação de imagem e texto é inferior a 0,28, retendo, em última análise, 5 bilhões de pares imagem-texto. O conjunto de dados contém 2,32 bilhões de descrições em inglês, 2,26 bilhões em mais de 100 idiomas e 1,27 bilhão de idiomas desconhecidos.
TaiSu (TaiSu - conjunto de dados de pré-treinamento de linguagem visual chinesa em grande escala de nível de bilhões)
- Endereço: https://github.com/ksOAn6g5/TaiSu
- Introdução: TaiSu: conjunto de dados de pré-treinamento em linguagem visual chinesa de grande escala e alta qualidade de 166 milhões
COYO-700M: conjunto de dados de pares de imagem-texto em grande escala
- Endereço: https://huggingface.co/datasets/kakaobrain/coyo-700m
- Introdução: COYO-700M é um grande conjunto de dados contendo 747 milhões de pares de imagem-texto junto com muitos outros metaatributos para melhorar a usabilidade no treinamento de vários modelos. Nosso conjunto de dados segue uma estratégia semelhante aos conjuntos de dados visuais e linguísticos anteriores, coletando muitos textos alternativos informativos e seus pares de imagens associados em documentos HTML. Esperamos que o COYO seja usado para treinar modelos básicos populares em grande escala, complementando outros conjuntos de dados semelhantes.
- Exemplo de amostra
WIT: conjunto de dados de texto de imagem baseado na Wikipedia
- Endereço: https://github.com/google-research-datasets/wit
- Introdução: O conjunto de dados Image to Text (WIT) baseado na Wikipedia é um grande conjunto de dados multimodal e multilíngue. O WIT consiste em um conjunto selecionado de 37,6 milhões de exemplos de texto de imagens ricas em entidades, contendo 11,5 milhões de imagens exclusivas em 108 idiomas da Wikipédia. Seu tamanho permite que o WIT seja usado como um conjunto de dados de pré-treinamento para modelos de aprendizado de máquina multimodais.
- Paper WIT: conjunto de dados de texto de imagem baseado na Wikipedia para aprendizado de máquina multimodal multilíngue
- Exemplo de amostra
DifusãoDB
- Endereço: https://huggingface.co/datasets/poloclub/diffusiondb
- Introdução: DiffusionDB é o primeiro conjunto de dados de solicitação de texto para imagem em grande escala. Ele contém 14 milhões de imagens geradas por difusão estável usando sinais e hiperparâmetros reais especificados pelo usuário. O tamanho e a diversidade sem precedentes deste conjunto de dados orientado por humanos oferecem oportunidades de pesquisa interessantes para compreender a interação entre sugestões e modelos generativos, detectando deepfakes e projetando ferramentas de interação humano-computador para ajudar os usuários a usar esses modelos com mais facilidade. Os 2 milhões de imagens no DiffusionDB 2M são divididos em 2.000 pastas, cada uma contendo 1.000 imagens e um arquivo JSON que vincula as 1.000 imagens às suas sugestões e hiperparâmetros. Da mesma forma, os 14 milhões de imagens no DiffusionDB Large estão divididos em 14.000 pastas.
- Paper DiffusionDB: um conjunto de dados de galeria de prompts em grande escala para modelos geradores de texto para imagem
- Exemplo de amostra
2. Conjunto de dados de ajuste fino do gráfico Vincent
- DreamBooth: modelos de difusão de texto para imagem de ajuste fino para geração baseada em tópicos
- Endereço: https://github.com/google/dreambooth
- Introdução: Este conjunto de dados inclui 30 assuntos em 15 categorias diferentes. Nove deles eram sujeitos vivos (cães e gatos) e 21 eram objetos. Este conjunto de dados contém um número variável de imagens (4-6) por assunto.
3. Conjunto de dados de imagem de geração de texto controlável
- Conjunto de dados COCO-Stuff
- Endereço: https://github.com/nightrome/cocostuff
- Introdução: COCO-Stuff aprimora todas as imagens de 164K do popular conjunto de dados COCO [2] com anotações de conteúdo em nível de pixel. Essas anotações podem ser usadas para tarefas de compreensão de cena, como segmentação semântica, detecção de objetos e legenda de imagens.
- Exemplo de amostra
- Baixar linha de comando
# Get this repo
git clone https://github.com/nightrome/cocostuff.git
cd cocostuff
# Download everything
wget --directory-prefix=downloads http://images.cocodataset.org/zips/train2017.zip
wget --directory-prefix=downloads http://images.cocodataset.org/zips/val2017.zip
wget --directory-prefix=downloads http://calvin.inf.ed.ac.uk/wp-content/uploads/data/cocostuffdataset/stuffthingmaps_trainval2017.zip
# Unpack everything
mkdir -p dataset/images
mkdir -p dataset/annotations
unzip downloads/train2017.zip -d dataset/images/
unzip downloads/val2017.zip -d dataset/images/
unzip downloads/stuffthingmaps_trainval2017.zip -d dataset/annotations/
- * Pick-a-Pic: um conjunto de dados aberto de preferências do usuário para geração de texto para imagem
- Endereço: https://huggingface.co/datasets/yuvalkirstain/pickapic_v1
- Introdução: O conjunto de dados Pick-a-Pic é coletado por meio do aplicativo da web Pick-a-Pic e contém mais de 500.000 exemplos de preferências humanas para imagens geradas por modelo. O conjunto de dados com URLs em vez de imagens reais (o que o torna muito menor) pode ser encontrado aqui.
- Download de linha de comando [aceleração doméstica]
1. 下载hfd
wget https://hf-mirror.com/hfd/hfd.sh
chmod a+x hfd.sh
2. 设置环境变量
export HF_ENDPOINT=https://hf-mirror.com
3.1 下载模型
./hfd.sh gpt2 --tool aria2c -x 4
3.2 下载数据集
./hfd.sh yuvalkirstain/pickapic_v1 --dataset --tool aria2c -x 4
DeepFashion-MultiModal
- Endereço: https://drive.google.com/drive/folders/1An2c_ZCkeGmhJg0zUjtZF46vyJgQwIr2
- Introdução: Este conjunto de dados é um conjunto de dados do corpo humano em grande escala e alta qualidade com ricas anotações multimodais. Possui as seguintes propriedades: Contém 44.096 imagens de corpo humano de alta resolução, incluindo 12.701 imagens de corpo humano de corpo inteiro. Para cada imagem de corpo inteiro, anotamos manualmente 24 categorias de rótulos de análise corporal. Para cada imagem de corpo inteiro, anotamos manualmente os pontos-chave. Cada imagem é anotada manualmente com atributos de formato e textura da roupa. Fornecemos uma descrição de texto para cada imagem. DeepFashion-MultiModal pode ser aplicado à geração de imagens humanas orientada por texto, manipulação de imagens humanas guiadas por texto, geração de imagens humanas guiadas por esqueleto, estimativa de pose humana, legendas de imagens humanas, aprendizagem multimodal de imagens humanas, reconhecimento de atributos humanos e humano previsão de análise de corpo etc., este conjunto de dados é apresentado em Text2Human.
- Artigo: Text2Human: Geração de imagem humana controlável baseada em texto
Moda Profunda
- Endereço: https://mmlab.ie.cuhk.edu.hk/projects/DeepFashion.html
- Introdução: Este conjunto de dados é um banco de dados de roupas em grande escala com várias propriedades atraentes: primeiro, DeepFashion contém mais de 800.000 imagens de moda diversas, desde imagens de lojas posadas até fotos de consumidores irrestritas, constituindo o maior banco de dados de análise visual de moda. Em segundo lugar, o DeepFashion anota informações valiosas sobre itens de vestuário. Cada imagem neste conjunto de dados é anotada com 50 categorias, 1.000 atributos descritivos, caixas delimitadoras e pontos de referência de roupas. Terceiro, DeepFashion contém mais de 300.000 pares de imagens de pose cruzada/domínio cruzado. Quatro benchmarks foram desenvolvidos usando o banco de dados DeepFashion, incluindo previsão de atributos, recuperação de roupas do consumidor à loja, recuperação de roupas na loja e detecção de pontos de referência. Os dados e anotações desses benchmarks também podem ser usados como conjuntos de treinamento e teste para tarefas de visão computacional, como detecção de roupas, reconhecimento de roupas e recuperação de imagens.
- Tese: ViscoNet: Unindo e Harmonizando Condicionamento Visual e Textual para ControlNet
Conjunto de dados COCO (legendas COCO)
- Endereço: https://cocodataset.org/#download
- Introdução: COCO Captions é um conjunto de dados de legenda que visa a compreensão da cena, captura dados de imagens de cenas da vida diária e gera descrições de imagens manualmente. Este conjunto de dados contém 330 mil pares de imagem-texto.
- PaperText para geração de imagens usando redes adversárias generativas (GANs)
- Exemplo de amostra
Conjunto de dados CUBS-2000-2021
- Endereço: https://www.vision.caltech.edu/datasets/cub_200_2011/
- Dados relacionados: https://www.vision.caltech.edu/datasets/
- Introdução: Este conjunto de dados é um conjunto de dados refinado proposto pelo California Institute of Technology em 2010. É também o conjunto de dados de imagem de referência para a atual pesquisa detalhada de classificação e reconhecimento. O conjunto de dados tem um total de 11.788 imagens de pássaros, incluindo 200 subcategorias de pássaros. O conjunto de dados de treinamento possui 5.994 imagens e o conjunto de teste possui 5.794 imagens. informações importantes da ave e informações de atributos da ave.
- PaperText para geração de imagens usando redes adversárias generativas (GANs)
- Exemplo de amostra
Conjunto de dados de flores de 102 categorias
- Endereço: https://www.robots.ox.ac.uk/~vgg/data/flowers/102/
- Introdução: Criamos um conjunto de dados de 102 categorias composto por 102 categorias de flores. Estas flores foram escolhidas como flores comuns na Grã-Bretanha. Cada categoria consiste em 40 a 258 imagens.
- Exemplo de amostra
- Referência: https://blog.csdn.net/air__heaven/article/details/136141343
- Depois de baixar o conjunto de dados de imagem, você precisa baixar o conjunto de dados de texto correspondente. Use também o Google Cloud Disk para fazer download: https://drive.google.com/file/d/1G4QRcRZ_s57giew6wgnxemwWRDb-3h5P/view.
Flickr8k_dataset
- Endereço: https://www.robots.ox.ac.uk/~vgg/data/flowers/102/
- Introdução: Uma nova coleção de referência para descrição e pesquisa de imagens baseadas em frases, composta por 8.000 imagens, cada uma acompanhada por cinco legendas distintas que fornecem descrições claras de entidades e eventos importantes. As imagens foram selecionadas de seis grupos diferentes do Flickr e tendem a não incluir pessoas ou lugares conhecidos, mas são selecionadas manualmente para retratar uma variedade de cenas e situações.
- Artigo: Legenda para geração de imagens usando Redes Adversariais Gerativas Residuais Profundas [DR-GAN]
Flickr8k_Dataset.zip https://github.com/jbrownlee/Datasets/releases/download/Flickr8k/Flickr8k_Dataset.zip
Flickr8k_text.zip https://github.com/jbrownlee/Datasets/releases/download/Flickr8k/Flickr8k_text.zip
- Flickr30k_dataset Mova o conjunto de dados de 30k para legenda de imagens
- Endereço: https://www.kaggle.com/datasets/adityajn105/flickr30k
- Introdução: Uma nova coleção de referência para descrição e pesquisa de imagens baseadas em frases, composta por 30.000 imagens, cada uma acompanhada por cinco legendas distintas que fornecem descrições claras de entidades e eventos importantes. …essas imagens foram selecionadas de seis grupos diferentes do Flickr e muitas vezes não contêm pessoas ou lugares conhecidos, mas são selecionadas manualmente para representar uma variedade de cenas e situações
O conjunto de dados de substantivos adiciona títulos automaticamente ao cartão do conjunto de dados de substantivos
- Endereço: https://huggingface.co/datasets/m1guelpf/nouns
- Introdução: um conjunto de dados para treinar modelos de texto para imagem de substantivos que geram automaticamente títulos para substantivos com base em seus atributos, cores e itens. Para cada linha, o conjunto de dados contém chaves de imagem e texto. a imagem são JPEGs PIL de tamanhos diferentes e o texto é a legenda que a acompanha. Apenas divisões de trem estão disponíveis.
- Exemplo de amostra
Conjunto de dados OxfordTVG-HIC Conjunto de dados de texto de imagem de humor em grande escala
- Endereço: https://github.com/runjiali-rl/Oxford_HIC?tab=readme-ov-file
- Introdução: Este é um grande conjunto de dados para geração e compreensão do humor. O humor é uma construção cognitiva abstrata, subjetiva e dependente do contexto que envolve múltiplos fatores cognitivos, tornando sua geração e interpretação uma tarefa desafiadora. Oxford HIC fornece aproximadamente 2,9 milhões de pares imagem-texto com pontuações de humor para treinar um modelo geral de legendagem de humor. Em contraste com os conjuntos de dados de legendas existentes, Oxford HIC tem uma ampla gama de sentimentos e diversidade semântica, resultando em exemplos fora de contexto que são particularmente benéficos para gerar humor.
- Exemplo de amostra
Conjunto de dados de texto de imagem facial em grande escala Multi-Modal-CelebA-HQ
- Endereço: https://github.com/IIGROUP/MM-CelebA-HQ-Dataset
- Introdução: Multi-Modal-CelebA-HQ (MM-CelebA-HQ) é um conjunto de dados de imagens faciais em grande escala, que possui 30 mil imagens faciais de alta resolução, selecionadas do conjunto de dados CelebA de acordo com CelebA-HQ. Cada imagem do conjunto de dados é acompanhada por uma máscara semântica, um esboço, um texto descritivo e uma imagem com fundo transparente. Multi-Modal-CelebA-HQ pode ser usado para treinar e avaliar algoritmos para uma variedade de tarefas, incluindo geração de texto para imagem, manipulação de imagem guiada por texto, geração de esboço para imagem, legendagem de imagens e resposta visual a perguntas. Este conjunto de dados é introduzido e usado no TediGAN.
- Exemplo de amostra
Conjunto de dados 3D
1. Conjunto de dados pré-treinamento
- Multimodal3DIdent: um conjunto de dados multimodal de pares de imagem/texto gerados a partir de fatores de verdade controláveis
- Endereço: https://zenodo.org/records/7678231
- Introdução: O código oficial para gerar o conjunto de dados Multimodal3DIdent é apresentado no artigo "Resultados de identificabilidade da aprendizagem contrastiva multimodal" publicado no ICLR 2023. Este conjunto de dados fornece uma referência de reconhecimento contendo pares de imagem/texto gerados a partir de fatores de verdade controláveis, alguns dos quais são compartilhados entre modalidades de imagem e texto, conforme mostrado no exemplo a seguir.
- Artigo: Resultados de Identificabilidade para Aprendizagem Contrastiva Multimodal
2. Conjunto de dados de ajuste fino do gráfico Vincent
3. Conjunto de dados de imagem de geração de texto controlável