Conjunto de datos de generación de texto a imagen controlable
Conjunto de datos de Noah-Wukong
Dirección: https://wukong-dataset.github.io/wukong-dataset/download.html
Introducción: el conjunto de datos de Noah-Wukong es un conjunto de datos chino multimodal a gran escala. Este conjunto de datos contiene 100 millones de pares de
Cero: ajuste de los modelos de difusión de texto a imagen para la generación basada en temas
Conjunto de datos previo al entrenamiento 23 millones de conjuntos de datos (corpus cero). El corpus cero se recopila de los motores de búsqueda y contiene imágenes y descripciones de texto correspondientes, filtradas a partir de 5 mil millones de pares de imágenes y texto en función de las tasas de clics de los usuarios. 2,3 millones de conjuntos de datos (Zero-Corpus-Sub). Subconjunto de datos del corpus nulo. Entrenar un modelo VLP en un corpus cero puede requerir amplios recursos de GPU, por lo que también se proporciona un subconjunto de datos que contiene un 10 % de pares de imagen y texto con fines de investigación.
Conjunto de datos posteriores
ICM está diseñado para tareas de coincidencia de imagen y texto. Contiene 400.000 pares imagen-texto, incluidos 200.000 ejemplos positivos y 200.000 ejemplos negativos.
IQM también es un conjunto de datos que se utiliza para tareas de coincidencia de imágenes y texto. A diferencia de ICM, utilizamos consultas de búsqueda en lugar de textos descriptivos detallados. Asimismo, IQM contiene 200.000 casos positivos y 200.000 casos negativos.
ICR recogimos 200.000 pares imagen-texto. Contiene tareas de recuperación de imagen a texto y de recuperación de texto a imagen.
IQR IQR también se ha propuesto para tareas de recuperación de texto de imágenes. Seleccionamos aleatoriamente 200.000 consultas y las imágenes correspondientes como pares de consulta-imagen anotados similares a IQM.
Flickr30k-CNA Reunimos a lingüistas profesionales inglés-chinos para volver a traducir cuidadosamente todos los datos de Flickr30k y verificar cuidadosamente cada oración. Beijing Magic Data Technology Co., Ltd. contribuyó a la traducción de este conjunto de datos.
Dirección: https://zero.so.com/download.html
Introducción: Zero es un punto de referencia intermodal chino a gran escala, que consta de dos conjuntos de datos previos al entrenamiento llamados Zero-Corpus y cinco conjuntos de datos posteriores.
Conjunto de datos de Flickr 30k
Dirección: https://shannon.cs.illinois.edu/DenotationGraph/data/index.html
Introducción: el conjunto de datos de Flickr 30k consta de imágenes obtenidas de Flickr.
Conjunto de datos del genoma visual
Dirección: http://visualgenome.org/
Introducción: Visual Genome es un conjunto de datos de comprensión semántica de imágenes a gran escala publicado por Li Feifei en 2016, que incluye datos de imágenes y preguntas y respuestas. Las anotaciones son densas y la semántica diversa. Este conjunto de datos contiene 5 millones de pares de imagen y texto.
Conjunto de datos de subtítulos conceptuales (CC)
Dirección: https://ai.google.com/research/ConceptualCaptions/download
Introducción: Los subtítulos conceptuales (CC) son datos multimodales anotados no humanos, que incluyen la URL de la imagen y los subtítulos. La descripción del subtítulo correspondiente se filtra del atributo de texto alternativo del sitio web. El conjunto de datos CC se divide en dos versiones: CC3M (aproximadamente 3,3 millones de pares imagen-texto) y CC12M (aproximadamente 12 millones de pares imagen-texto) debido a diferentes volúmenes de datos.
Conjunto de datos YFCC100M
Dirección: http://projects.dfki.uni-kl.de/yfcc100m/
Introducción: la base de datos YFCC100M es una base de datos de imágenes basada en Yahoo Flickr desde 2014. La base de datos consta de 100 millones de datos de medios generados entre 2004 y 2014, incluidos 99,2 millones de datos de fotografías y 800.000 datos de vídeo. El conjunto de datos YFCC100M establece un documento de datos de texto basado en la base de datos. Cada línea del documento es un fragmento de metadatos de una foto o un video.
Conjunto de datos ALT200M
Dirección: Ninguna
[Introducción]: ALT200M es un conjunto de datos de imagen y texto a gran escala creado por el equipo de Microsoft para estudiar las características de las tendencias de escala en las tareas de descripción. Este conjunto de datos contiene 200 millones de pares de imagen y texto. La descripción de texto correspondiente se filtra del atributo de texto alternativo del sitio web. (Conjunto de datos privado, sin enlace al conjunto de datos)
Conjunto de datos LAION-400M
Dirección: https://laion.ai/blog/laion-400-open-dataset/
Introducción: LAION-400M obtiene texto e imágenes de páginas web de 2014 a 2021 a través de CommonCrwal y luego usa CLIP para filtrar pares de imagen y texto con similitudes de incrustación de imagen y texto inferiores a 0,3 y, en última instancia, retiene 400 millones de pares de imagen y texto. Sin embargo, LAION-400M contiene una gran cantidad de imágenes incómodas, lo que tiene un mayor impacto en la tarea de generación de texto e imágenes. Mucha gente utiliza este conjunto de datos para generar imágenes pornográficas, con malos resultados. Por lo tanto, se requieren conjuntos de datos más grandes y limpios.
Conjunto de datos LAION-5B
Dirección: https://laion.ai/blog/laion-5b/
Introducción: LAION-5B es el conjunto de datos multimodal más grande conocido actualmente y de código abierto. Obtiene texto e imágenes a través de CommonCrawl y luego usa CLIP para filtrar pares de imagen y texto cuya similitud de incrustación de imagen y texto sea inferior a 0,28, reteniendo en última instancia 5 mil millones de pares de imagen y texto. El conjunto de datos contiene 2,32 mil millones de descripciones en inglés, 2,26 mil millones en más de 100 idiomas y 1,27 mil millones de idiomas desconocidos.
Conjunto de datos de texto de imagen basado en Wikipedia (WIT) Conjunto de datos de texto de imagen basado en Wikipedia (WIT)
Dirección: https://github.com/google-research-datasets/wit/blob/main/DATA.md
Introducción: el conjunto de datos WIT (texto de imagen basado en Wikipedia) es un gran conjunto de datos multimodal y multilingüe que contiene más de 37 millones de conjuntos de texto de imágenes que contienen más de 11 millones de imágenes únicas en más de 100 idiomas. Proporcionamos WIT como un conjunto de 10 archivos tsv (comprimidos). El tamaño total del conjunto de datos es de aproximadamente 25 GB. Este es el conjunto completo de datos de entrenamiento. Si desea comenzar rápidamente, elija cualquiera de los archivos de ~2,5 GB que le brindarán ~10 % de los datos y contendrán un conjunto de ~3,5 millones de ejemplos de texto de imagen. También incluimos conjuntos de validación y prueba (5 archivos cada uno).
Conjunto de datos LAION-5B
Dirección: https://laion.ai/blog/laion-5b/
Introducción: LAION-5B es el conjunto de datos multimodal más grande conocido actualmente y de código abierto. Obtiene texto e imágenes a través de CommonCrawl y luego usa CLIP para filtrar pares de imagen y texto cuya similitud de incrustación de imagen y texto sea inferior a 0,28, reteniendo en última instancia 5 mil millones de pares de imagen y texto. El conjunto de datos contiene 2,32 mil millones de descripciones en inglés, 2,26 mil millones en más de 100 idiomas y 1,27 mil millones de idiomas desconocidos.
TaiSu (TaiSu: conjunto de datos de preentrenamiento del lenguaje visual chino a gran escala y a gran escala)
Dirección: https://github.com/ksOAn6g5/TaiSu
Introducción: TaiSu: conjunto de datos de preentrenamiento del lenguaje visual chino de alta calidad a gran escala de 166 millones
COYO-700M: conjunto de datos de pares de imagen y texto a gran escala
Dirección: https://huggingface.co/datasets/kakaobrain/coyo-700m
Introducción: COYO-700M es un gran conjunto de datos que contiene 747 millones de pares de imagen y texto junto con muchos otros metaatributos para mejorar la usabilidad en el entrenamiento de varios modelos. Nuestro conjunto de datos sigue una estrategia similar a los conjuntos de datos visuales y lingüísticos anteriores, recopilando muchos textos alternativos informativos y sus pares de imágenes asociados en documentos HTML. Esperamos que COYO se utilice para entrenar modelos base populares a gran escala, complementando otros conjuntos de datos similares.
Ejemplo de muestra
WIT: conjunto de datos de texto de imagen basado en Wikipedia
Dirección: https://github.com/google-research-datasets/wit
Introducción: el conjunto de datos de imagen a texto (WIT) basado en Wikipedia es un gran conjunto de datos multimodal y multilingüe. WIT consta de un conjunto seleccionado de 37,6 millones de ejemplos de texto de imágenes ricas en entidades, que contienen 11,5 millones de imágenes únicas en 108 idiomas de Wikipedia. Su tamaño permite que WIT se utilice como conjunto de datos previo al entrenamiento para modelos de aprendizaje automático multimodal.
Paper WIT: conjunto de datos de texto de imagen basado en Wikipedia para aprendizaje automático multimodal y multilingüe
Ejemplo de muestra
DifusiónDB
Dirección: https://huggingface.co/datasets/poloclub/diffusiondb
Introducción: DiffusionDB es el primer conjunto de datos de solicitud de conversión de texto a imagen a gran escala. Contiene 14 millones de imágenes generadas por difusión estable utilizando señales e hiperparámetros reales especificados por el usuario. El tamaño y la diversidad sin precedentes de este conjunto de datos impulsado por humanos brindan interesantes oportunidades de investigación para comprender la interacción entre señales y modelos generativos, detectar deepfakes y diseñar herramientas de interacción persona-computadora para ayudar a los usuarios a utilizar estos modelos más fácilmente. Los 2 millones de imágenes en DiffusionDB 2M están divididas en 2000 carpetas, cada una de las cuales contiene 1000 imágenes y un archivo JSON que vincula las 1000 imágenes con sus señales e hiperparámetros. De manera similar, los 14 millones de imágenes en DiffusionDB Large están divididas en 14.000 carpetas.
Paper DiffusionDB: un conjunto de datos de galería de mensajes a gran escala para modelos generativos de texto a imagen
Ejemplo de muestra
DreamBooth: ajuste de los modelos de difusión de texto a imagen para la generación basada en temas
Dirección: https://github.com/google/dreambooth
Introducción: este conjunto de datos incluye 30 sujetos en 15 categorías diferentes. Nueve de ellos eran sujetos vivos (perros y gatos) y 21 eran objetos. Este conjunto de datos contiene un número variable de imágenes (4-6) por tema.
Conjunto de datos de cosas COCO
# Get this repo git clone https://github.com/nightrome/cocostuff.git cd cocostuff # Download everything wget --directory-prefix=downloads http://images.cocodataset.org/zips/train2017.zip wget --directory-prefix=downloads http://images.cocodataset.org/zips/val2017.zip wget --directory-prefix=downloads http://calvin.inf.ed.ac.uk/wp-content/uploads/data/cocostuffdataset/stuffthingmaps_trainval2017.zip # Unpack everything mkdir -p dataset/images mkdir -p dataset/annotations unzip downloads/train2017.zip -d dataset/images/ unzip downloads/val2017.zip -d dataset/images/ unzip downloads/stuffthingmaps_trainval2017.zip -d dataset/annotations/
Dirección: https://github.com/nightrome/cocostuff
Introducción: COCO-Stuff mejora todas las imágenes de 164K del popular conjunto de datos COCO [2] con anotaciones de contenido a nivel de píxeles. Estas anotaciones se pueden utilizar para tareas de comprensión de escenas, como segmentación semántica, detección de objetos y subtítulos de imágenes.
Ejemplo de muestra
Descarga de línea de comando
* Pick-a-Pic: un conjunto de datos abierto de preferencias del usuario para la generación de texto a imagen
Dirección: https://huggingface.co/datasets/yuvalkirstain/pickapic_v1
Introducción: el conjunto de datos Pick-a-Pic se recopila a través de la aplicación web Pick-a-Pic y contiene más de 500.000 ejemplos de preferencias humanas por imágenes generadas por modelos. El conjunto de datos con URL en lugar de imágenes reales (lo que lo hace mucho más pequeño) se puede encontrar aquí.
Descarga de línea de comando [aceleración nacional]
1. 下载hfd wget https://hf-mirror.com/hfd/hfd.sh chmod a+x hfd.sh 2. 设置环境变量 export HF_ENDPOINT=https://hf-mirror.com 3.1 下载模型 ./hfd.sh gpt2 --tool aria2c -x 4 3.2 下载数据集 ./hfd.sh yuvalkirstain/pickapic_v1 --dataset --tool aria2c -x 4
DeepFashion-Multimodal
Dirección: https://drive.google.com/drive/folders/1An2c_ZCkeGmhJg0zUjtZF46vyJgQwIr2
Introducción: este conjunto de datos es un conjunto de datos del cuerpo humano a gran escala y de alta calidad con ricas anotaciones multimodales. Tiene las siguientes propiedades: Contiene 44.096 imágenes del cuerpo humano de alta resolución, incluidas 12.701 imágenes del cuerpo humano de cuerpo completo. Para cada imagen de cuerpo completo, anotamos manualmente 24 categorías de etiquetas de análisis corporal. Para cada imagen de cuerpo completo, anotamos manualmente los puntos clave. Cada imagen está anotada manualmente con atributos de forma y textura de la ropa. Proporcionamos una descripción de texto para cada imagen. DeepFashion-MultiModal se puede aplicar a la generación de imágenes humanas basada en texto, manipulación de imágenes humanas guiada por texto, generación de imágenes humanas guiada por esqueletos, estimación de pose humana, subtítulos de imágenes humanas, aprendizaje multimodal de imágenes humanas, reconocimiento de atributos humanos y predicción de análisis corporal, etc., este conjunto de datos se presenta en Text2Human.
Documento: Text2Human: Generación de imágenes humanas controlables basadas en texto
Moda profunda
Dirección: https://mmlab.ie.cuhk.edu.hk/projects/DeepFashion.html
Introducción: este conjunto de datos es una base de datos de ropa a gran escala con varias propiedades atractivas: primero, DeepFashion contiene más de 800.000 imágenes de moda diversas, que van desde imágenes de tiendas posadas hasta fotografías de consumidores sin restricciones, lo que constituye la base de datos de análisis visual de moda más grande. En segundo lugar, DeepFashion anota información valiosa sobre las prendas de vestir. Cada imagen de este conjunto de datos está comentada con 50 categorías, 1000 atributos descriptivos, cuadros delimitadores y puntos de referencia de ropa. En tercer lugar, DeepFashion contiene más de 300.000 pares de imágenes de poses y dominios cruzados. Se desarrollaron cuatro puntos de referencia utilizando la base de datos DeepFashion, incluida la predicción de atributos, la recuperación de ropa del consumidor a la tienda, la recuperación de ropa en la tienda y la detección de puntos de referencia. Los datos y las anotaciones de estos puntos de referencia también se pueden utilizar como conjuntos de entrenamiento y prueba para tareas de visión por computadora, como la detección de ropa, el reconocimiento de ropa y la recuperación de imágenes.
Tesis: ViscoNet: uniendo y armonizando el condicionamiento visual y textual para ControlNet
Conjunto de datos COCO (subtítulos COCO)
Dirección: https://cocodataset.org/#download
Introducción: COCO Captions es un conjunto de datos de subtítulos que apunta a la comprensión de la escena, captura datos de imágenes de escenas de la vida diaria y genera descripciones de imágenes manualmente. Este conjunto de datos contiene 330.000 pares de imagen y texto.
PaperText a generación de imágenes utilizando redes generativas adversarias (GAN)
Ejemplo de muestra
Conjunto de datos CUBS-2000-2021
Dirección: https://www.vision.caltech.edu/datasets/cub_200_2011/
Datos relacionados: https://www.vision.caltech.edu/datasets/
Introducción: este conjunto de datos es un conjunto de datos de grano fino propuesto por el Instituto de Tecnología de California en 2010. También es el conjunto de datos de imágenes de referencia para la investigación actual de reconocimiento y clasificación de grano fino. El conjunto de datos tiene un total de 11.788 imágenes de aves, incluidas 200 subcategorías de aves. El conjunto de datos de entrenamiento tiene 5.994 imágenes y el conjunto de prueba tiene 5.794 imágenes. Cada imagen proporciona información de etiqueta de clase de imagen y el límite del ave en el cuadro de imagen. información de la parte clave del ave e información de atributos del ave.
PaperText a generación de imágenes utilizando redes generativas adversarias (GAN)
Ejemplo de muestra
Conjunto de datos de flores de 102 categorías
Dirección: https://www.robots.ox.ac.uk/~vgg/data/flowers/102/
Introducción: Creamos un conjunto de datos de 102 categorías que consta de 102 categorías de flores. Las flores fueron elegidas como flores comunes en Gran Bretaña. Cada categoría consta de 40 a 258 imágenes.
Ejemplo de muestra
Referencia: https://blog.csdn.net/air__heaven/article/details/136141343
Después de descargar el conjunto de datos de imagen, debe descargar el conjunto de datos de texto correspondiente. Utilice también Google Cloud Disk para descargar: https://drive.google.com/file/d/1G4QRcRZ_s57giew6wgnxemwWRDb-3h5P/view.
Flickr8k_dataset
Flickr8k_Dataset.zip https://github.com/jbrownlee/Datasets/releases/download/Flickr8k/Flickr8k_Dataset.zip Flickr8k_text.zip https://github.com/jbrownlee/Datasets/releases/download/Flickr8k/Flickr8k_text.zip
Flickr30k_dataset Conjunto de datos de Flick 30k para subtítulos de imágenes
Dirección: https://www.kaggle.com/datasets/adityajn105/flickr30k
Introducción: una nueva colección de referencia para la descripción y búsqueda de imágenes basadas en oraciones, que consta de 30.000 imágenes, cada una acompañada de cinco títulos distintos que proporcionan descripciones claras de entidades y eventos destacados. …estas imágenes fueron seleccionadas de seis grupos diferentes de Flickr y, a menudo, no contienen personas o lugares conocidos, sino que se seleccionan cuidadosamente para representar una variedad de escenas y situaciones.
Dirección: https://www.robots.ox.ac.uk/~vgg/data/flowers/102/
Introducción: una nueva colección de referencia para la descripción y búsqueda de imágenes basadas en oraciones, que consta de 8000 imágenes, cada una acompañada de cinco títulos distintos que proporcionan descripciones claras de entidades y eventos destacados. Las imágenes fueron seleccionadas de seis grupos diferentes de Flickr y no suelen incluir personas o lugares conocidos, sino que se seleccionan manualmente para representar una variedad de escenas y situaciones.
Artículo: Generación de subtítulos a imágenes utilizando redes adversas generativas residuales profundas [DR-GAN]
El conjunto de datos de sustantivos agrega automáticamente títulos a la tarjeta del conjunto de datos de sustantivos
Dirección: https://huggingface.co/datasets/m1guelpf/nouns
Introducción: un conjunto de datos para entrenar modelos de texto a imagen de sustantivos que generan automáticamente títulos para sustantivos en función de sus atributos, colores y elementos. Para cada fila, el conjunto de datos contiene claves de imagen y texto. Las imágenes son archivos JPEG PIL de diferentes tamaños y el texto es el título de texto que las acompaña. Solo están disponibles divisiones de trenes.
Ejemplo de muestra
Conjunto de datos OxfordTVG-HIC Conjunto de datos de texto de imágenes de humor a gran escala
Dirección: https://github.com/runjiali-rl/Oxford_HIC?tab=readme-ov-file
Introducción: Este es un gran conjunto de datos para la generación y comprensión del humor. El humor es un constructo cognitivo abstracto, subjetivo y dependiente del contexto que involucra múltiples factores cognitivos, lo que hace que su generación e interpretación sea una tarea desafiante. Oxford HIC proporciona aproximadamente 2,9 millones de pares de imágenes y texto con partituras de humor para entrenar un modelo de subtítulos de humor general. A diferencia de los conjuntos de datos de subtítulos existentes, Oxford HIC tiene una amplia gama de sentimientos y diversidad semántica, lo que resulta en ejemplos fuera de contexto que son particularmente beneficiosos para generar humor.
Ejemplo de muestra
Conjunto de datos de texto de imágenes de rostros a gran escala Multi-Modal-CelebA-HQ
Dirección: https://github.com/IIGROUP/MM-CelebA-HQ-Dataset
Introducción: Multi-Modal-CelebA-HQ (MM-CelebA-HQ) es un conjunto de datos de imágenes de rostros a gran escala, que tiene 30k imágenes de rostros de alta resolución, seleccionadas del conjunto de datos de CelebA según CelebA-HQ. Cada imagen del conjunto de datos va acompañada de una máscara semántica, un boceto, un texto descriptivo y una imagen con fondo transparente. Multi-Modal-CelebA-HQ se puede utilizar para entrenar y evaluar algoritmos para una variedad de tareas, incluida la generación de texto a imagen, manipulación de imágenes guiada por texto, generación de boceto a imagen, subtítulos de imágenes y respuesta visual a preguntas. Este conjunto de datos se introduce y utiliza en TediGAN.
Ejemplo de muestra
Multimodal3DIdent: un conjunto de datos multimodal de pares de imagen/texto generados a partir de factores de verdad controlables
Dirección: https://zenodo.org/records/7678231
Introducción: el código oficial para generar el conjunto de datos Multimodal3DIdent se presenta en el artículo "Resultados de identificabilidad del aprendizaje contrastivo multimodal" publicado en ICLR 2023. Este conjunto de datos proporciona un punto de referencia de reconocibilidad que contiene pares de imagen/texto generados a partir de factores de verdad controlables, algunos de los cuales se comparten entre las modalidades de imagen y texto, como se muestra en el siguiente ejemplo.
Artículo: Resultados de identificabilidad para el aprendizaje contrastivo multimodal