Ensembles de données d'images à génération de texte contrôlée
Ensemble de données de génération de texte en image contrôlable
Ensemble de données 2D
1. Ensemble de données de pré-entraînement
Ensemble de données Noah-Wukong
- Adresse : https://wukong-dataset.github.io/wukong-dataset/download.html
- Introduction : L'ensemble de données Noah-Wukong est un ensemble de données chinois multimodal à grande échelle. Cet ensemble de données contient 100 millions de paires .
Zero : Affiner les modèles de diffusion texte-image pour une génération thématique
- Adresse : https://zero.so.com/download.html
- Introduction : Zero est un benchmark multimodal chinois à grande échelle, composé de deux ensembles de données de pré-formation appelés Zero-Corpus et de cinq ensembles de données en aval.
- Ensemble de données de pré-formation 23 millions d'ensembles de données (zéro corpus). Le corpus zéro est collecté à partir des moteurs de recherche et contient des images et des descriptions textuelles correspondantes, filtrées à partir de 5 milliards de paires image-texte en fonction des taux de clics des utilisateurs. 2,3 millions d'ensembles de données (Zero-Corpus-Sub). Sous-ensemble de données du corpus nul. La formation d'un modèle VLP sur un corpus nul peut nécessiter des ressources GPU étendues, c'est pourquoi un sous-ensemble de données contenant 10 % de paires image-texte est également fourni à des fins de recherche.
- Ensemble de données en aval
- ICM est conçu pour les tâches de correspondance image-texte. Il contient 400 000 paires image-texte, dont 200 000 exemples positifs et 200 000 exemples négatifs.
- IQM est également un ensemble de données utilisé pour les tâches de correspondance image-texte. Contrairement à ICM, nous utilisons des requêtes de recherche plutôt que du texte de description détaillée. De même, l'IQM contient 200 000 cas positifs et 200 000 cas négatifs.
- ICR, nous avons collecté 200 000 paires image-texte. Il contient des tâches de récupération d'image en texte et de récupération de texte en image.
- IQR IQR a également été proposé pour les tâches de récupération de texte d'image. Nous sélectionnons au hasard 200 000 requêtes et images correspondantes sous forme de paires image-requête annotées similaires à IQM.
- Flickr30k-CNA Nous avons rassemblé des linguistes professionnels anglais-chinois pour retraduire soigneusement toutes les données Flickr30k et vérifier soigneusement chaque phrase. Beijing Magic Data Technology Co., Ltd. a contribué à la traduction de cet ensemble de données.
Ensemble de données Flickr 30 000
- Adresse : https://shannon.cs.illinois.edu/DenotationGraph/data/index.html
- Introduction : L'ensemble de données Flickr 30k est constitué d'images obtenues à partir de Flickr.
Ensemble de données visuelles sur le génome
- Adresse : http://visualgenome.org/
- Introduction : Visual Genome est un ensemble de données de compréhension sémantique d'images à grande échelle publié par Li Feifei en 2016, comprenant des données d'images et de questions et réponses. Les annotations sont denses et la sémantique est diversifiée. Cet ensemble de données contient 5 millions de paires image-texte.
Ensemble de données de légendes conceptuelles (CC)
- Adresse : https://ai.google.com/research/ConceptualCaptions/download
- Introduction : Les légendes conceptuelles (CC) sont des données multimodales annotées non humaines, comprenant l'URL de l'image et les sous-titres. La description du sous-titre correspondant est filtrée à partir de l'attribut de texte alternatif du site Web. L'ensemble de données CC est divisé en deux versions : CC3M (environ 3,3 millions de paires image-texte) et CC12M (environ 12 millions de paires image-texte) en raison des différents volumes de données.
Ensemble de données YFCC100M
- Adresse : http://projects.dfki.uni-kl.de/yfcc100m/
- Introduction : La base de données YFCC100M est une base de données d'images basée sur Yahoo Flickr depuis 2014. La base de données comprend 100 millions de données multimédias générées entre 2004 et 2014, dont 99,2 millions de données photographiques et 800 000 données vidéo. L'ensemble de données YFCC100M établit un document de données texte basé sur la base de données. Chaque ligne du document est une métadonnée d'une photo ou d'une vidéo.
Ensemble de données ALT200M
- Adresse : Aucune
- [Introduction] : ALT200M est un ensemble de données image-texte à grande échelle construit par l'équipe Microsoft pour étudier les caractéristiques des tendances de mise à l'échelle dans les tâches de description. Cet ensemble de données contient 200 millions de paires image-texte. La description textuelle correspondante est filtrée à partir de l'attribut alt-text du site Web. (Ensemble de données privé, pas de lien vers l'ensemble de données)
Ensemble de données LAION-400M
- Adresse : https://laion.ai/blog/laion-400-open-dataset/
- Introduction : LAION-400M obtient le texte et les images des pages Web de 2014 à 2021 via CommonCrwal, puis utilise CLIP pour filtrer les paires image-texte avec une similarité d'incorporation d'image et de texte inférieure à 0,3, conservant finalement 400 millions de paires image-texte. Cependant, LAION-400M contient un grand nombre d'images inconfortables, ce qui a un plus grand impact sur la tâche de génération de texte et d'images. De nombreuses personnes utilisent cet ensemble de données pour générer des images pornographiques, à mauvais escient. Par conséquent, des ensembles de données plus volumineux et plus propres deviennent une exigence.
Ensemble de données LAION-5B
- Adresse : https://laion.ai/blog/laion-5b/
- Introduction : LAION-5B est le plus grand ensemble de données multimodales actuellement connu et open source. Il obtient du texte et des images via CommonCrawl, puis utilise CLIP pour filtrer les paires image-texte dont la similarité d'intégration d'image et de texte est inférieure à 0,28, conservant finalement 5 milliards de paires image-texte. L'ensemble de données contient 2,32 milliards de descriptions en anglais, 2,26 milliards dans plus de 100 autres langues et 1,27 milliard de langues inconnues.
Ensemble de données de texte d'image basé sur Wikipédia (WIT) Ensemble de données de texte d'image basé sur Wikipédia (WIT)
- Adresse : https://github.com/google-research-datasets/wit/blob/main/DATA.md
- Introduction : L'ensemble de données WIT (Wikipedia-based Image Text) est un vaste ensemble de données multimodal et multilingue contenant plus de 37 millions d'ensembles de textes d'images contenant plus de 11 millions d'images uniques dans plus de 100 langues. Nous fournissons WIT sous la forme d'un ensemble de 10 fichiers tsv (zippés). La taille totale de l'ensemble de données est d'environ 25 Go. Il s’agit de l’ensemble des données d’entraînement. Si vous souhaitez commencer rapidement, choisissez l'un des fichiers d'environ 2,5 Go qui vous fourniront environ 10 % des données et contiendront un ensemble d'environ 3,5 millions d'exemples de texte d'image. Nous incluons également des ensembles de validation et de test (5 fichiers chacun).
Ensemble de données LAION-5B
- Adresse : https://laion.ai/blog/laion-5b/
- Introduction : LAION-5B est le plus grand ensemble de données multimodales actuellement connu et open source. Il obtient du texte et des images via CommonCrawl, puis utilise CLIP pour filtrer les paires image-texte dont la similarité d'intégration d'image et de texte est inférieure à 0,28, conservant finalement 5 milliards de paires image-texte. L'ensemble de données contient 2,32 milliards de descriptions en anglais, 2,26 milliards dans plus de 100 autres langues et 1,27 milliard de langues inconnues.
TaiSu (TaiSu – ensemble de données de pré-entraînement au langage visuel chinois à grande échelle, au niveau d'un milliard)
- Adresse : https://github.com/ksOAn6g5/TaiSu
- Introduction : TaiSu : 166 millions de données de pré-entraînement au langage visuel chinois à grande échelle et de haute qualité
COYO-700M : ensemble de données de paires image-texte à grande échelle
- Adresse : https://huggingface.co/datasets/kakaobrain/coyo-700m
- Introduction : COYO-700M est un vaste ensemble de données contenant 747 millions de paires image-texte ainsi que de nombreux autres méta-attributs pour améliorer la convivialité dans la formation de divers modèles. Notre ensemble de données suit une stratégie similaire aux ensembles de données visuels et linguistiques précédents, collectant de nombreux textes alternatifs informatifs et leurs paires d'images associées dans des documents HTML. Nous nous attendons à ce que COYO soit utilisé pour former des modèles de base populaires à grande échelle, complétant d’autres ensembles de données similaires.
- Exemple d'exemple
WIT : ensemble de données de texte d'image basé sur Wikipédia
- Adresse : https://github.com/google-research-datasets/wit
- Introduction : L'ensemble de données Image to Text (WIT) basé sur Wikipédia est un vaste ensemble de données multimodal et multilingue. WIT se compose d'un ensemble organisé de 37,6 millions d'exemples de textes d'images riches en entités, contenant 11,5 millions d'images uniques dans 108 langues Wikipédia. Sa taille permet à WIT d'être utilisé comme ensemble de données de pré-formation pour les modèles d'apprentissage automatique multimodaux.
- Paper WIT : ensemble de données de texte d'image basé sur Wikipédia pour l'apprentissage automatique multimodal et multilingue
- Exemple d'exemple
DiffusionDB
- Adresse : https://huggingface.co/datasets/poloclub/diffusiondb
- Introduction : DiffusionDB est le premier ensemble de données d'invite texte-image à grande échelle. Il contient 14 millions d'images générées par diffusion stable à l'aide d'indices et d'hyperparamètres réels spécifiés par l'utilisateur. La taille et la diversité sans précédent de cet ensemble de données humaines offrent des opportunités de recherche passionnantes pour comprendre l'interaction entre les signaux et les modèles génératifs, détecter les deepfakes et concevoir des outils d'interaction homme-machine pour aider les utilisateurs à utiliser plus facilement ces modèles. Les 2 millions d'images de DiffusionDB 2M sont divisées en 2 000 dossiers, chacun contenant 1 000 images et un fichier JSON qui relie les 1 000 images à leurs indices et hyperparamètres. De même, les 14 millions d'images de DiffusionDB Large sont réparties en 14 000 dossiers.
- Paper DiffusionDB : un ensemble de données de galerie d'invites à grande échelle pour les modèles génératifs texte-image
- Exemple d'exemple
2. Ensemble de données de réglage fin du graphique Vincent
- DreamBooth : Affiner les modèles de diffusion texte-image pour une génération thématique
- Adresse : https://github.com/google/dreambooth
- Introduction : Cet ensemble de données comprend 30 sujets répartis en 15 catégories différentes. Neuf d'entre eux étaient des sujets vivants (chiens et chats) et 21 étaient des objets. Cet ensemble de données contient un nombre variable d'images (4 à 6) par sujet.
3. Ensemble de données d'image de génération de texte contrôlable
- Ensemble de données COCO-Stuff
- Adresse : https://github.com/nightrome/cocostuff
- Introduction : COCO-Stuff améliore toutes les images 164 000 du populaire ensemble de données COCO [2] avec des annotations de contenu au niveau des pixels. Ces annotations peuvent être utilisées pour des tâches de compréhension de scène telles que la segmentation sémantique, la détection d'objets et le sous-titrage d'images.
- Exemple d'exemple
- Téléchargement en ligne de commande
# Get this repo
git clone https://github.com/nightrome/cocostuff.git
cd cocostuff
# Download everything
wget --directory-prefix=downloads http://images.cocodataset.org/zips/train2017.zip
wget --directory-prefix=downloads http://images.cocodataset.org/zips/val2017.zip
wget --directory-prefix=downloads http://calvin.inf.ed.ac.uk/wp-content/uploads/data/cocostuffdataset/stuffthingmaps_trainval2017.zip
# Unpack everything
mkdir -p dataset/images
mkdir -p dataset/annotations
unzip downloads/train2017.zip -d dataset/images/
unzip downloads/val2017.zip -d dataset/images/
unzip downloads/stuffthingmaps_trainval2017.zip -d dataset/annotations/
- * Pick-a-Pic : un ensemble de données ouvert de préférences utilisateur pour la génération de texte en image
- Adresse : https://huggingface.co/datasets/yuvalkirstain/pickapic_v1
- Introduction : L'ensemble de données Pick-a-Pic est collecté via l'application Web Pick-a-Pic et contient plus de 500 000 exemples de préférences humaines pour les images générées par des modèles. L'ensemble de données avec des URL au lieu d'images réelles (ce qui le rend beaucoup plus petit) peut être trouvé ici.
- Téléchargement en ligne de commande [accélération domestique]
1. 下载hfd
wget https://hf-mirror.com/hfd/hfd.sh
chmod a+x hfd.sh
2. 设置环境变量
export HF_ENDPOINT=https://hf-mirror.com
3.1 下载模型
./hfd.sh gpt2 --tool aria2c -x 4
3.2 下载数据集
./hfd.sh yuvalkirstain/pickapic_v1 --dataset --tool aria2c -x 4
DeepFashion-MultiModal
- Adresse : https://drive.google.com/drive/folders/1An2c_ZCkeGmhJg0zUjtZF46vyJgQwIr2
- Introduction : Cet ensemble de données est un ensemble de données sur le corps humain à grande échelle et de haute qualité avec de riches annotations multimodales. Il possède les propriétés suivantes : Il contient 44 096 images du corps humain haute résolution, dont 12 701 images du corps humain complet. Pour chaque image du corps entier, nous annotons manuellement 24 catégories d’étiquettes d’analyse corporelle. Pour chaque image du corps entier, nous annotons manuellement les points clés. Chaque image est annotée manuellement avec des attributs de forme et de texture des vêtements. Nous fournissons une description textuelle pour chaque image. DeepFashion-MultiModal peut être appliqué à la génération d'images humaines basée sur le texte, à la manipulation d'images humaines guidée par le texte, à la génération d'images humaines guidée par le squelette, à l'estimation de la pose humaine, aux sous-titres d'images humaines, à l'apprentissage multimodal d'images humaines, à la reconnaissance d'attributs humains et aux prédiction d'analyse corporelle, etc., cet ensemble de données est présenté dans Text2Human.
- Article : Text2Human : Génération d'images humaines contrôlables basées sur le texte
Mode profonde
- Adresse : https://mmlab.ie.cuhk.edu.hk/projects/DeepFashion.html
- Introduction : Cet ensemble de données est une base de données de vêtements à grande échelle présentant plusieurs propriétés intéressantes : Premièrement, DeepFashion contient plus de 800 000 images de mode diverses, allant des images de magasin posées aux photos de consommateurs sans contraintes, constituant la plus grande base de données d'analyse visuelle de la mode. Deuxièmement, DeepFashion annote de riches informations sur les vêtements. Chaque image de cet ensemble de données est annotée avec 50 catégories, 1 000 attributs descriptifs, des cadres de délimitation et des repères vestimentaires. Troisièmement, DeepFashion contient plus de 300 000 paires d’images cross-pose/cross-domain. Quatre benchmarks ont été développés à l'aide de la base de données DeepFashion, notamment la prédiction d'attributs, la récupération de vêtements du consommateur au magasin, la récupération de vêtements en magasin et la détection de points de repère. Les données et annotations de ces références peuvent également être utilisées comme ensembles de formation et de test pour des tâches de vision par ordinateur telles que la détection de vêtements, la reconnaissance de vêtements et la récupération d'images.
- Thèse : ViscoNet : combler et harmoniser le conditionnement visuel et textuel pour ControlNet
Ensemble de données COCO (Légendes COCO)
- Adresse : https://cocodataset.org/#download
- Introduction : COCO Captions est un ensemble de données de légendes qui cible la compréhension des scènes, capture les données d'image des scènes de la vie quotidienne et génère manuellement des descriptions d'images. Cet ensemble de données contient 330 000 paires image-texte.
- PaperText vers la génération d'images à l'aide de réseaux contradictoires génératifs (GAN)
- Exemple d'exemple
Ensemble de données CUBS-2000-2021
- Adresse : https://www.vision.caltech.edu/datasets/cub_200_2011/
- Données associées : https://www.vision.caltech.edu/datasets/
- Introduction : Cet ensemble de données est un ensemble de données à granularité fine proposé par le California Institute of Technology en 2010. Il s'agit également de l'ensemble de données d'images de référence pour les recherches actuelles en matière de classification et de reconnaissance à granularité fine. L'ensemble de données contient un total de 11 788 images d'oiseaux, dont 200 sous-catégories d'oiseaux. L'ensemble de données d'entraînement contient 5 994 images et l'ensemble de test contient 5 794 images. Chaque image fournit des informations sur l'étiquette de classe d'image et la limite de l'oiseau dans la zone d'image. des informations sur les éléments clés de l'oiseau et des informations sur les attributs de l'oiseau.
- PaperText vers la génération d'images à l'aide de réseaux contradictoires génératifs (GAN)
- Exemple d'exemple
102 Catégorie Ensemble de données sur les fleurs
- Adresse : https://www.robots.ox.ac.uk/~vgg/data/flowers/102/
- Introduction : Nous avons créé un ensemble de données de 102 catégories composé de 102 catégories de fleurs. Ces fleurs ont été choisies comme fleurs communes en Grande-Bretagne. Chaque catégorie comprend de 40 à 258 images.
- Exemple d'exemple
- Référence : https://blog.csdn.net/air__heaven/article/details/136141343
- Après avoir téléchargé l'ensemble de données d'image, vous devez télécharger l'ensemble de données de texte correspondant. Utilisez également Google Cloud Disk pour télécharger : https://drive.google.com/file/d/1G4QRcRZ_s57giew6wgnxemwWRDb-3h5P/view.
Flickr8k_dataset
- Adresse : https://www.robots.ox.ac.uk/~vgg/data/flowers/102/
- Introduction : Une nouvelle collection de référence pour la description et la recherche d'images basées sur des phrases, composée de 8 000 images, chacune accompagnée de cinq légendes distinctes qui fournissent des descriptions claires des entités et des événements saillants. Les images ont été sélectionnées parmi six groupes Flickr différents et n'incluent généralement pas de personnes ou de lieux connus, mais sont sélectionnées à la main pour représenter une variété de scènes et de situations.
- Article : Légende de la génération d'images à l'aide de réseaux contradictoires génératifs résiduels profonds [DR-GAN]
Flickr8k_Dataset.zip https://github.com/jbrownlee/Datasets/releases/download/Flickr8k/Flickr8k_Dataset.zip
Flickr8k_text.zip https://github.com/jbrownlee/Datasets/releases/download/Flickr8k/Flickr8k_text.zip
- Flickr30k_dataset Ensemble de données Flick 30k pour le sous-titrage d'images
- Adresse : https://www.kaggle.com/datasets/adityajn105/flickr30k
- Introduction : Une nouvelle collection de référence pour la description et la recherche d'images basées sur des phrases, composée de 30 000 images, chacune accompagnée de cinq légendes distinctes qui fournissent des descriptions claires des entités et des événements saillants. …ces images ont été sélectionnées parmi six groupes Flickr différents et ne contiennent souvent aucune personne ou lieu connu, mais sont sélectionnées à la main pour représenter une variété de scènes et de situations.
L'ensemble de données de noms ajoute automatiquement des titres à la carte de l'ensemble de données de noms
- Adresse : https://huggingface.co/datasets/m1guelpf/nouns
- Introduction : Un ensemble de données pour entraîner des modèles texte-image de noms qui génèrent automatiquement des titres pour les noms en fonction de leurs attributs, couleurs et éléments. Pour chaque ligne, l'ensemble de données contient des clés d'image et de texte. l'image sont des jpeg PIL de différentes tailles et le texte est la légende du texte qui l'accompagne. Seules les répartitions de train sont disponibles.
- Exemple d'exemple
Ensemble de données OxfordTVG-HIC Ensemble de données de texte d'image humoristique à grande échelle
- Adresse : https://github.com/runjiali-rl/Oxford_HIC?tab=readme-ov-file
- Introduction : Il s'agit d'un vaste ensemble de données pour la génération et la compréhension de l'humour. L'humour est une construction cognitive abstraite, subjective et dépendante du contexte qui implique de multiples facteurs cognitifs, ce qui rend sa génération et son interprétation une tâche difficile. Oxford HIC fournit environ 2,9 millions de paires image-texte avec des partitions humoristiques pour former un modèle général de sous-titrage humoristique. Contrairement aux ensembles de données de sous-titrage existants, Oxford HIC présente un large éventail de sentiments et de diversité sémantique, ce qui fait que les exemples hors contexte sont particulièrement bénéfiques pour générer de l'humour.
- Exemple d'exemple
Ensemble de données de texte d'image de visage à grande échelle Multi-Modal-CelebA-HQ
- Adresse : https://github.com/IIGROUP/MM-CelebA-HQ-Dataset
- Introduction : Multi-Modal-CelebA-HQ (MM-CelebA-HQ) est un ensemble de données d'images de visage à grande échelle, qui contient 30 000 images de visage haute résolution, sélectionnées dans l'ensemble de données CelebA selon CelebA-HQ. Chaque image de l'ensemble de données est accompagnée d'un masque sémantique, d'un croquis, d'un texte descriptif et d'une image avec un fond transparent. Multi-Modal-CelebA-HQ peut être utilisé pour former et évaluer des algorithmes pour une gamme de tâches, notamment la génération texte-image, la manipulation d'images guidée par texte, la génération croquis-image, le sous-titrage d'image et la réponse visuelle aux questions. Cet ensemble de données est introduit et utilisé dans TediGAN.
- Exemple d'exemple
Ensemble de données 3D
1. Ensemble de données de pré-entraînement
- Multimodal3DIdent : un ensemble de données multimodales de paires image/texte générées à partir de facteurs de vérité terrain contrôlables
- Adresse : https://zenodo.org/records/7678231
- Introduction : Le code officiel pour générer l'ensemble de données Multimodal3DIdent est introduit dans l'article « Identifiability Results of Multimodal Contrastive Learning » publié à l'ICLR 2023. Cet ensemble de données fournit un benchmark de reconnaissabilité contenant des paires image/texte générées à partir de facteurs de vérité terrain contrôlables, dont certains sont partagés entre les modalités image et texte, comme le montre l'exemple suivant.
- Article : Résultats d'identifiabilité pour l'apprentissage contrastif multimodal
2. Ensemble de données de réglage fin du graphique Vincent
3. Ensemble de données d'image de génération de texte contrôlable