Управляемый набор данных для генерации текста в изображение
Набор данных Ноя-Вуконга
Адрес: https://wukong-dataset.github.io/wukong-dataset/download.html.
Введение: Набор данных Ноя-Вуконга — это крупномасштабный мультимодальный набор данных по китайскому языку. Этот набор данных содержит 100 миллионов пар
Ноль: точная настройка моделей распространения текста в изображения для тематической генерации
Набор данных для предварительного обучения: 23 миллиона наборов данных (нулевой корпус). Нулевой корпус собирается из поисковых систем и содержит изображения и соответствующие текстовые описания, отфильтрованные из 5 миллиардов пар изображение-текст на основе рейтинга кликов пользователей. 2,3 миллиона наборов данных (Zero-Corpus-Sub). Поднабор данных нулевого корпуса. Обучение модели VLP на нулевом корпусе может потребовать обширных ресурсов графического процессора, поэтому для исследовательских целей также предоставляется поднабор данных, содержащий 10% пар изображение-текст.
Набор данных ниже по течению
ICM предназначен для задач сопоставления изображения и текста. Он содержит 400 000 пар изображение-текст, включая 200 000 положительных и 200 000 отрицательных примеров.
IQM также представляет собой набор данных, используемый для задач сопоставления изображения и текста. В отличие от ICM, мы используем поисковые запросы, а не подробный текст описания. Аналогично, IQM содержит 200 000 положительных случаев и 200 000 отрицательных случаев.
ICR мы собрали 200 000 пар изображение-текст. Он содержит задачи извлечения изображения в текст и преобразования текста в изображение.
IQR IQR также был предложен для задач поиска текста по изображениям. Мы случайным образом выбираем 200 000 запросов и соответствующие изображения в виде пар «изображение-запрос» с аннотациями, аналогично IQM.
Flickr30k-CNA Мы собрали профессиональных англо-китайских лингвистов, чтобы тщательно перевести все данные Flickr30k и тщательно проверить каждое предложение. Компания Beijing Magic Data Technology Co., Ltd. внесла свой вклад в перевод этого набора данных.
Адрес: https://zero.so.com/download.html
Введение: Zero — это крупномасштабный китайский кросс-модальный тест, состоящий из двух наборов данных для предварительного обучения, называемых Zero-Corpus, и пяти последующих наборов данных.
Набор данных Flickr 30 тыс.
Адрес: https://shannon.cs.illinois.edu/DenotationGraph/data/index.html.
Введение: Набор данных Flickr 30k состоит из изображений, полученных с Flickr.
Набор данных визуального генома
Адрес: http://visualgenome.org/
Введение: Visual Genome — это крупномасштабный набор данных для понимания семантики изображений, выпущенный Ли Фейфеем в 2016 году, включая данные изображений, а также вопросы и ответы. Аннотации плотные, а семантика разнообразна. Этот набор данных содержит 5 миллионов пар изображение-текст.
Набор данных концептуальных подписей (CC)
Адрес: https://ai.google.com/research/ConceptualCaptions/download.
Введение: Концептуальные подписи (CC) — это нечеловеческие аннотированные мультимодальные данные, включая URL-адрес изображения и субтитры. Соответствующее описание субтитров фильтруется из атрибута alt-text веб-сайта. Набор данных CC разделен на две версии: CC3M (около 3,3 миллиона пар изображение-текст) и CC12M (около 12 миллионов пар изображение-текст) из-за разных объемов данных.
Набор данных YFCC100M
Адрес: http://projects.dfki.uni-kl.de/yfcc100m/
Введение: База данных YFCC100M — это база данных изображений, основанная на Yahoo Flickr с 2014 года. База данных состоит из 100 миллионов фрагментов медиаданных, созданных в период с 2004 по 2014 год, включая 99,2 миллиона фрагментов фотоданных и 800 000 фрагментов видеоданных. Набор данных YFCC100M создает документ с текстовыми данными на основе базы данных. Каждая строка в документе представляет собой часть метаданных фотографии или видео.
Набор данных ALT200M
Адрес: Нет
[Введение]: ALT200M — это крупномасштабный набор изображений и текста, созданный командой Microsoft для изучения характеристик тенденций масштабирования в задачах описания. Этот набор данных содержит 200 миллионов пар изображение-текст. Соответствующее текстовое описание фильтруется по атрибуту alt-text веб-сайта. (Частный набор данных, без ссылки на набор данных)
Набор данных ЛАИОН-400М
Адрес: https://laion.ai/blog/laion-400-open-dataset/
Введение: LAION-400M получает текст и изображения с веб-страниц с 2014 по 2021 год через CommonCrwal, а затем использует CLIP для фильтрации пар изображение-текст со сходством встраивания изображения и текста менее 0,3, в конечном итоге сохраняя 400 миллионов пар изображение-текст. Однако ЛАИОН-400М содержит большое количество неудобных картинок, что в большей степени влияет на задачу генерации текста и изображений. Многие люди используют этот набор данных для создания порнографических изображений, что приводит к плохим последствиям. Поэтому требуются более крупные и чистые наборы данных.
Набор данных LAION-5B
Адрес: https://laion.ai/blog/laion-5b/
Введение: LAION-5B — это крупнейший известный в настоящее время мультимодальный набор данных с открытым исходным кодом. Он получает текст и изображения через CommonCrawl, а затем использует CLIP для фильтрации пар изображение-текст, чье сходство встраивания изображения и текста ниже 0,28, в конечном итоге сохраняя 5 миллиардов пар изображение-текст. Набор данных содержит 2,32 миллиарда описаний на английском языке, 2,26 миллиарда на более чем 100 других языках и 1,27 миллиарда неизвестных языков.
Набор данных текста изображения (WIT) на основе Википедии Набор данных текста изображения (WIT) на основе Википедии
Адрес: https://github.com/google-research-datasets/wit/blob/main/DATA.md
Введение: Набор данных WIT (текст изображения на основе Википедии) представляет собой большой мультимодальный многоязычный набор данных, содержащий более 37 миллионов наборов текста изображений, содержащих более 11 миллионов уникальных изображений на более чем 100 языках. Мы предоставляем WIT в виде набора из 10 tsv-файлов (в архиве). Общий размер набора данных составляет около 25 ГБ. Это весь набор обучающих данных. Если вы хотите быстро приступить к работе, выберите любой из файлов размером около 2,5 ГБ, который предоставит вам примерно 10 % данных и будет содержать набор из примерно 3,5 миллионов+ примеров текста с изображениями. Мы также включаем наборы для проверки и тестирования (по 5 файлов каждый).
Набор данных LAION-5B
Адрес: https://laion.ai/blog/laion-5b/
Введение: LAION-5B — это крупнейший известный в настоящее время мультимодальный набор данных с открытым исходным кодом. Он получает текст и изображения через CommonCrawl, а затем использует CLIP для фильтрации пар изображение-текст, чье сходство встраивания изображения и текста ниже 0,28, в конечном итоге сохраняя 5 миллиардов пар изображение-текст. Набор данных содержит 2,32 миллиарда описаний на английском языке, 2,26 миллиарда на более чем 100 других языках и 1,27 миллиарда неизвестных языков.
TaiSu (TaiSu — крупномасштабный набор данных для предварительного обучения китайскому визуальному языку на уровне миллиарда)
Адрес: https://github.com/ksOAn6g5/TaiSu
Введение: TaiSu: 166M крупномасштабный высококачественный набор данных для предварительного обучения китайскому визуальному языку.
COYO-700M: Крупномасштабный набор данных пары изображение-текст
Адрес: https://huggingface.co/datasets/kakaobrain/coyo-700m
Введение: COYO-700M — это большой набор данных, содержащий 747 миллионов пар изображение-текст, а также множество других метаатрибутов для повышения удобства использования при обучении различных моделей. Наш набор данных следует той же стратегии, что и предыдущие наборы визуальных и лингвистических данных, собирая много информативного альтернативного текста и связанных с ним пар изображений в документах HTML. Мы ожидаем, что COYO будет использоваться для обучения популярных крупномасштабных базовых моделей, дополняя другие аналогичные наборы данных.
Пример примера
WIT: набор текстовых данных изображений на основе Википедии.
Адрес: https://github.com/google-research-datasets/wit.
Введение. Набор данных «Изображение в текст» (WIT) на основе Википедии представляет собой большой мультимодальный многоязычный набор данных. WIT состоит из тщательно подобранного набора из 37,6 миллионов примеров текстов с изображениями, содержащими 11,5 миллионов уникальных изображений на 108 языках Википедии. Его размер позволяет использовать WIT в качестве набора данных для предварительного обучения для мультимодальных моделей машинного обучения.
Paper WIT: набор изображений и текста на основе Википедии для мультимодального многоязычного машинного обучения
Пример примера
Диффузионная база данных
Адрес: https://huggingface.co/datasets/poloclub/diffusiondb
Введение: DiffusionDB — это первый крупномасштабный набор данных для преобразования текста в изображение. Он содержит 14 миллионов изображений, созданных путем стабильной диффузии с использованием реальных заданных пользователем сигналов и гиперпараметров. Беспрецедентный размер и разнообразие этого набора данных, управляемого человеком, открывает захватывающие исследовательские возможности для понимания взаимодействия между сигналами и генеративными моделями, обнаружения дипфейков и разработки инструментов взаимодействия человека и компьютера, которые помогут пользователям более легко использовать эти модели. 2 миллиона изображений в DiffusionDB 2M разделены на 2000 папок, каждая из которых содержит 1000 изображений и файл JSON, который связывает 1000 изображений с их сигналами и гиперпараметрами. Аналогично, 14 миллионов изображений в DiffusionDB Large разделены на 14 000 папок.
Paper DiffusionDB: крупномасштабный набор данных галереи подсказок для генеративных моделей преобразования текста в изображение
Пример примера
DreamBooth: точная настройка моделей распространения текста в изображения для тематической генерации
Адрес: https://github.com/google/dreambooth
Введение: Этот набор данных включает 30 субъектов в 15 различных категориях. Девять из них были живыми субъектами (собаки и кошки), а 21 — объектами. Этот набор данных содержит переменное количество изображений (4–6) на каждый предмет.
Набор данных COCO-Stuff
# Get this repo git clone https://github.com/nightrome/cocostuff.git cd cocostuff # Download everything wget --directory-prefix=downloads http://images.cocodataset.org/zips/train2017.zip wget --directory-prefix=downloads http://images.cocodataset.org/zips/val2017.zip wget --directory-prefix=downloads http://calvin.inf.ed.ac.uk/wp-content/uploads/data/cocostuffdataset/stuffthingmaps_trainval2017.zip # Unpack everything mkdir -p dataset/images mkdir -p dataset/annotations unzip downloads/train2017.zip -d dataset/images/ unzip downloads/val2017.zip -d dataset/images/ unzip downloads/stuffthingmaps_trainval2017.zip -d dataset/annotations/
Адрес: https://github.com/nightrome/cocostuff
Введение: COCO-Stuff расширяет все 164-килобайтные изображения популярного набора данных COCO [2] с помощью аннотаций контента на уровне пикселей. Эти аннотации можно использовать для задач понимания сцены, таких как семантическая сегментация, обнаружение объектов и создание подписей к изображениям.
Пример примера
Загрузка командной строки
* Pick-a-Pic: открытый набор данных пользовательских настроек для преобразования текста в изображение.
Адрес: https://huggingface.co/datasets/yuvalkirstain/pickapic_v1
Введение: Набор данных Pick-a-Pic собирается с помощью веб-приложения Pick-a-Pic и содержит более 500 000 примеров человеческих предпочтений в отношении изображений, созданных с помощью моделей. Набор данных с URL-адресами вместо реальных изображений (что значительно уменьшает его размер) можно найти здесь.
Загрузка из командной строки [внутреннее ускорение]
1. 下载hfd wget https://hf-mirror.com/hfd/hfd.sh chmod a+x hfd.sh 2. 设置环境变量 export HF_ENDPOINT=https://hf-mirror.com 3.1 下载模型 ./hfd.sh gpt2 --tool aria2c -x 4 3.2 下载数据集 ./hfd.sh yuvalkirstain/pickapic_v1 --dataset --tool aria2c -x 4
DeepFashion-Мультимодальный
Адрес: https://drive.google.com/drive/folders/1An2c_ZCkeGmhJg0zUjtZF46vyJgQwIr2
Введение: Этот набор данных представляет собой крупномасштабный высококачественный набор данных о человеческом теле с богатыми мультимодальными аннотациями. Он обладает следующими свойствами: Он содержит 44 096 изображений человеческого тела с высоким разрешением, в том числе 12 701 изображение человеческого тела в полный рост. Для каждого изображения в полный рост мы вручную аннотируем 24 категории меток анализа тела. Для каждого изображения в полный рост мы вручную отмечаем ключевые точки. Каждое изображение вручную аннотировано атрибутами формы и фактуры одежды. К каждому изображению мы предоставляем текстовое описание. DeepFashion-MultiModal может применяться для создания изображений человека на основе текста, манипулирования изображениями человека на основе текста, создания изображений человека на основе скелетов, оценки позы человека, субтитров для изображений человека, мультимодального изучения изображений человека, распознавания атрибутов человека и прогноз анализа тела и т. д., этот набор данных представлен в Text2Human.
Документ: Text2Human: управляемая текстом генерация изображений человека
DeepFashion
Адрес: https://mmlab.ie.cuhk.edu.hk/projects/DeepFashion.html.
Введение: Этот набор данных представляет собой крупномасштабную базу данных одежды с несколькими привлекательными свойствами: во-первых, DeepFashion содержит более 800 000 разнообразных изображений моды, от постановочных изображений в магазине до фотографий потребителей без ограничений, что составляет крупнейшую базу данных визуального анализа моды. Во-вторых, DeepFashion аннотирует обширную информацию об предметах одежды. Каждое изображение в этом наборе данных снабжено 50 категориями, 1000 описательными атрибутами, ограничивающими рамками и ориентирами одежды. В-третьих, DeepFashion содержит более 300 000 пар изображений в разных позах и разных областях. С использованием базы данных DeepFashion были разработаны четыре теста, включая прогнозирование атрибутов, поиск одежды от потребителя до магазина, поиск одежды в магазине и обнаружение ориентиров. Данные и аннотации этих тестов также можно использовать в качестве обучающих и тестовых наборов для задач компьютерного зрения, таких как обнаружение одежды, распознавание одежды и поиск изображений.
Диссертация: ViscoNet: объединение и гармонизация визуального и текстового преобразования для ControlNet
Набор данных COCO (COCO Captions)
Адрес: https://cocodataset.org/#download
Введение: COCO Captions — это набор данных подписей, который предназначен для понимания сцены, собирает данные изображений из сцен повседневной жизни и вручную генерирует описания изображений. Этот набор данных содержит 330 тысяч пар изображение-текст.
PaperText для генерации изображений с использованием генеративно-состязательных сетей (GAN)
Пример примера
Набор данных CUBS-2000-2021
Адрес: https://www.vision.caltech.edu/datasets/cub_200_2011/
Сопутствующие данные: https://www.vision.caltech.edu/datasets/.
Введение: Этот набор данных представляет собой набор мелкозернистых данных, предложенный Калифорнийским технологическим институтом в 2010 году. Это также эталонный набор данных изображений для текущих исследований мелкозернистой классификации и распознавания. Набор данных содержит в общей сложности 11 788 изображений птиц, включая 200 подкатегорий птиц. Набор обучающих данных содержит 5 994 изображения, а тестовый набор содержит 5 794 изображения. Каждое изображение содержит информацию о метке класса изображения и границах птицы в поле изображения. ключевая информация о птице и атрибутивная информация о птице.
PaperText для генерации изображений с использованием генеративно-состязательных сетей (GAN)
Пример примера
102 Категория набора данных цветов
Адрес: https://www.robots.ox.ac.uk/~vgg/data/flowers/102/
Введение: мы создали набор данных из 102 категорий, состоящий из 102 категорий цветов. Цветы были выбраны как распространенные цветы в Великобритании. Каждая категория состоит из от 40 до 258 изображений.
Пример примера
Ссылка: https://blog.csdn.net/air__heaven/article/details/136141343.
После загрузки набора данных изображения вам необходимо загрузить соответствующий набор текстовых данных. Также используйте Google Cloud Disk для загрузки: https://drive.google.com/file/d/1G4QRcRZ_s57giew6wgnxemwWRDb-3h5P/view.
Flickr8k_dataset
Flickr8k_Dataset.zip https://github.com/jbrownlee/Datasets/releases/download/Flickr8k/Flickr8k_Dataset.zip Flickr8k_text.zip https://github.com/jbrownlee/Datasets/releases/download/Flickr8k/Flickr8k_text.zip
Flickr30k_dataset Набор данных Flick 30k для подписей к изображениям
Адрес: https://www.kaggle.com/datasets/adityajn105/flickr30k
Введение: новая эталонная коллекция для описания и поиска изображений на основе предложений, состоящая из 30 000 изображений, каждое из которых сопровождается пятью отдельными подписями, которые обеспечивают четкое описание важных объектов и событий. …эти изображения были выбраны из шести различных групп Flickr и часто не содержат известных людей или мест, а отбираются вручную для изображения различных сцен и ситуаций.
Адрес: https://www.robots.ox.ac.uk/~vgg/data/flowers/102/
Введение: новая эталонная коллекция для описания и поиска изображений на основе предложений, состоящая из 8000 изображений, каждое из которых сопровождается пятью отдельными подписями, которые обеспечивают четкое описание важных объектов и событий. Изображения были выбраны из шести различных групп Flickr и, как правило, не включают в себя каких-либо известных людей или мест, а отбираются вручную для изображения различных сцен и ситуаций.
Статья: Создание подписи к изображению с использованием глубоких остаточных генеративно-состязательных сетей [DR-GAN]
Набор данных существительных автоматически добавляет заголовки в карточку набора данных существительных.
Адрес: https://huggingface.co/datasets/m1guelpf/nouns
Введение: набор данных для обучения моделей преобразования текста в изображение существительных, которые автоматически генерируют названия существительных на основе их атрибутов, цветов и элементов. Для каждой строки набор данных содержит ключи изображения и текста. Изображение представляет собой файлы PIL в формате JPEG разных размеров, а текст — это сопровождающая текстовая подпись. Доступны только разделения поездов.
Пример примера
Набор данных OxfordTVG-HIC Крупномасштабный набор текстовых данных юмористических изображений
Адрес: https://github.com/runjiali-rl/Oxford_HIC?tab=readme-ov-file
Введение: это большой набор данных для создания и понимания юмора. Юмор — это абстрактная, субъективная, контекстно-зависимая когнитивная конструкция, которая включает в себя множество когнитивных факторов, что делает его создание и интерпретацию сложной задачей. Oxford HIC предоставляет примерно 2,9 миллиона пар изображение-текст с оценками юмора для обучения общей модели юмористических титров. В отличие от существующих наборов данных по субтитрам, Oxford HIC имеет широкий спектр настроений и семантического разнообразия, в результате чего примеры, вырванные из контекста, особенно полезны для создания юмора.
Пример примера
Multi-Modal-CelebA-HQ крупномасштабный набор текстовых данных изображения лица
Адрес: https://github.com/IIGROUP/MM-CelebA-HQ-Dataset
Введение: Multi-Modal-CelebA-HQ (MM-CelebA-HQ) — это крупномасштабный набор данных изображений лиц, который содержит 30 тыс. изображений лиц с высоким разрешением, выбранных из набора данных CelebA в соответствии с CelebA-HQ. Каждое изображение в наборе данных сопровождается семантической маской, эскизом, описательным текстом и изображением с прозрачным фоном. Multi-Modal-CelebA-HQ можно использовать для обучения и оценки алгоритмов для решения ряда задач, включая генерацию текста в изображение, манипулирование изображениями с помощью текста, генерацию эскиза в изображение, создание подписей к изображениям и визуальные ответы на вопросы. Этот набор данных представлен и используется в TediGAN.
Пример примера
Multimodal3DIdent: мультимодальный набор данных пар изображение/текст, созданный на основе контролируемых факторов истинности.
Адрес: https://zenodo.org/records/7678231
Введение: Официальный код для создания набора данных Multimodal3DIdent представлен в статье «Результаты идентификации мультимодального контрастного обучения», опубликованной на ICLR 2023. Этот набор данных обеспечивает эталон узнаваемости, содержащий пары изображение/текст, сгенерированные на основе контролируемых основных факторов истинности, некоторые из которых являются общими для модальностей изображения и текста, как показано в следующем примере.
Статья: Результаты идентификации для мультимодального контрастного обучения