Steuerbarer Datensatz zur Text-zu-Bild-Generierung
Noah-Wukong-Datensatz
Adresse: https://wukong-dataset.github.io/wukong-dataset/download.html
Einführung: Der Noah-Wukong-Datensatz ist ein umfangreicher multimodaler chinesischer Datensatz. Dieser Datensatz enthält 100 Millionen <Bild, Text>-Paare.
Zero: Feinabstimmung von Text-zu-Bild-Diffusionsmodellen für die themengesteuerte Generierung
Datensatz vor dem Training: 23 Millionen Datensätze (Nullkorpus). Der Nullkorpus wird von Suchmaschinen gesammelt und enthält Bilder und entsprechende Textbeschreibungen, gefiltert aus 5 Milliarden Bild-Text-Paaren basierend auf den Klickraten der Benutzer. 2,3 Millionen Datensätze (Zero-Corpus-Sub). Teildatensatz des Nullkorpus. Das Training des VLP-Modells auf dem Nullkorpus erfordert möglicherweise viele GPU-Ressourcen, daher wird zu Forschungszwecken auch ein Unterdatensatz mit 10 % Bild-Text-Paaren bereitgestellt.
Downstream-Datensatz
ICM ist für Bild-Text-Matching-Aufgaben konzipiert. Es enthält 400.000 Bild-Text-Paare, darunter 200.000 Positivbeispiele und 200.000 Negativbeispiele.
IQM ist auch ein Datensatz, der für Bild-Text-Abgleichsaufgaben verwendet wird. Im Gegensatz zu ICM verwenden wir Suchanfragen anstelle von detaillierten Beschreibungstexten. Ebenso enthält IQM 200.000 positive Fälle und 200.000 negative Fälle.
ICR haben wir 200.000 Bild-Text-Paare gesammelt. Es enthält Bild-zu-Text-Abruf- und Text-zu-Bild-Abrufaufgaben.
IQR IQR wurde auch für Bildtext-Retrieval-Aufgaben vorgeschlagen. Wir wählen zufällig 200.000 Abfragen und entsprechende Bilder als annotierte Bild-Abfrage-Paare ähnlich wie bei IQM aus.
Flickr30k-CNA Wir haben professionelle Englisch-Chinesisch-Linguisten zusammengestellt, um alle Flickr30k-Daten sorgfältig neu zu übersetzen und jeden Satz sorgfältig zu überprüfen. Beijing Magic Data Technology Co., Ltd. hat zur Übersetzung dieses Datensatzes beigetragen.
Adresse: https://zero.so.com/download.html
Einführung: Zero ist ein groß angelegter chinesischer modalübergreifender Benchmark, der aus zwei Pre-Training-Datensätzen namens Zero-Corpus und fünf Downstream-Datensätzen besteht.
Flickr 30k-Datensatz
Adresse: https://shannon.cs.illinois.edu/DenotationGraph/data/index.html
Einleitung: Der Flickr 30k-Datensatz besteht aus Bildern, die von Flickr bezogen wurden.
Visueller Genomdatensatz
Adresse: http://visualgenome.org/
Einführung: Visual Genome ist ein umfangreicher Datensatz zum semantischen Verständnis von Bildern, der 2016 von Li Feifei veröffentlicht wurde und Bild- sowie Frage- und Antwortdaten enthält. Die Annotationen sind dicht und die Semantik vielfältig. Dieser Datensatz enthält 5 Millionen Bild-Text-Paare.
Konzeptionelle Bildunterschriften (CC)-Datensatz
Adresse: https://ai.google.com/research/ConceptualCaptions/download
Einführung: Conceptual Captions (CC) sind nicht-menschliche kommentierte multimodale Daten, einschließlich Bild-URL und Untertitel. Die entsprechende Untertitelbeschreibung wird aus dem Alt-Text-Attribut der Website gefiltert. Der CC-Datensatz ist aufgrund unterschiedlicher Datenmengen in zwei Versionen unterteilt: CC3M (ca. 3,3 Millionen Bild-Text-Paare) und CC12M (ca. 12 Millionen Bild-Text-Paare).
YFCC100M-Datensatz
Adresse: http://projects.dfki.uni-kl.de/yfcc100m/
Einführung: Die YFCC100M-Datenbank ist eine Bilddatenbank, die seit 2014 auf Yahoo Flickr basiert. Die Datenbank besteht aus 100 Millionen Mediendaten, die zwischen 2004 und 2014 generiert wurden, darunter 99,2 Millionen Fotodaten und 800.000 Videodaten. Der YFCC100M-Datensatz erstellt ein Textdatendokument basierend auf der Datenbank. Jede Zeile im Dokument ist ein Teil der Metadaten eines Fotos oder Videos.
ALT200M-Datensatz
Adresse: Keine
[Einführung]: ALT200M ist ein umfangreicher Bild-Text-Datensatz, der vom Microsoft-Team erstellt wurde, um die Merkmale von Skalierungstrends bei Beschreibungsaufgaben zu untersuchen. Dieser Datensatz enthält 200 Millionen Bild-Text-Paare. Die entsprechende Textbeschreibung wird aus dem Alt-Text-Attribut der Website gefiltert. (Privater Datensatz, kein Datensatz-Link)
LAION-400M-Datensatz
Adresse: https://laion.ai/blog/laion-400-open-dataset/
Einführung: LAION-400M ruft über CommonCrwal Texte und Bilder von Webseiten aus den Jahren 2014 bis 2021 ab und verwendet dann CLIP, um Bild-Text-Paare mit einer Bild- und Text-Einbettungsähnlichkeit von weniger als 0,3 herauszufiltern, wodurch letztendlich 400 Millionen Bild-Text-Paare erhalten bleiben. Allerdings enthält LAION-400M eine große Anzahl unbequemer Bilder, was einen größeren Einfluss auf die Aufgabe der Text- und Bildgenerierung hat. Viele Menschen nutzen diesen Datensatz, um pornografische Bilder zu erzeugen – mit negativem Ergebnis. Daher werden größere und sauberere Datensätze erforderlich.
LAION-5B-Datensatz
Adresse: https://laion.ai/blog/laion-5b/
Einleitung: LAION-5B ist der größte derzeit bekannte multimodale Datensatz und Open Source. Es ruft Text und Bilder über CommonCrawl ab und verwendet dann CLIP, um Bild-Text-Paare herauszufiltern, deren Bild- und Texteinbettungsähnlichkeit weniger als 0,28 beträgt, wodurch letztendlich 5 Milliarden Bild-Text-Paare erhalten bleiben. Der Datensatz enthält 2,32 Milliarden Beschreibungen in Englisch, 2,26 Milliarden in über 100 anderen Sprachen und 1,27 Milliarden unbekannte Sprachen.
Wikipedia-basierter Bildtext-Datensatz (WIT). Wikipedia-basierter Bildtext-Datensatz (WIT).
Adresse: https://github.com/google-research-datasets/wit/blob/main/DATA.md
Einleitung: Der WIT-Datensatz (Wikipedia-basierter Bildtext) ist ein großer multimodaler mehrsprachiger Datensatz mit über 37 Millionen Bildtextsätzen mit über 11 Millionen einzigartigen Bildern in über 100 Sprachen. Wir stellen WIT als Satz von 10 TSV-Dateien (gezippt) zur Verfügung. Die Gesamtgröße des Datensatzes beträgt ca. 25 GB. Dies ist der gesamte Trainingsdatensatz. Wenn Sie schnell loslegen möchten, wählen Sie eine der ca. 2,5 GB großen Dateien aus, die Ihnen ca. 10 % der Daten liefern und einen Satz von ca. 3,5 Mio. Bildtextbeispielen enthalten. Wir bieten auch Validierungs- und Testsätze (jeweils 5 Dateien) an.
LAION-5B-Datensatz
Adresse: https://laion.ai/blog/laion-5b/
Einleitung: LAION-5B ist der größte derzeit bekannte multimodale Datensatz und Open Source. Es ruft Text und Bilder über CommonCrawl ab und verwendet dann CLIP, um Bild-Text-Paare herauszufiltern, deren Bild- und Texteinbettungsähnlichkeit weniger als 0,28 beträgt, wodurch letztendlich 5 Milliarden Bild-Text-Paare erhalten bleiben. Der Datensatz enthält 2,32 Milliarden Beschreibungen in Englisch, 2,26 Milliarden in über 100 anderen Sprachen und 1,27 Milliarden unbekannte Sprachen.
TaiSu (TaiSu – groß angelegter Datensatz zur Vorschulung der chinesischen visuellen Sprache auf Milliardenebene)
Adresse: https://github.com/ksOAn6g5/TaiSu
Einführung: TaiSu: 166 Mio. großer, hochwertiger Datensatz für die Vorschulung der visuellen chinesischen Sprache
COYO-700M: Umfangreicher Bild-Text-Paar-Datensatz
Adresse: https://huggingface.co/datasets/kakaobrain/coyo-700m
Einführung: COYO-700M ist ein großer Datensatz, der 747 Millionen Bild-Text-Paare sowie viele andere Metaattribute enthält, um die Benutzerfreundlichkeit beim Training verschiedener Modelle zu verbessern. Unser Datensatz folgt einer ähnlichen Strategie wie frühere visuelle und sprachliche Datensätze und sammelt viele informative Alternativtexte und die zugehörigen Bildpaare in HTML-Dokumenten. Wir erwarten, dass COYO zum Trainieren beliebter groß angelegter Basismodelle verwendet wird und andere ähnliche Datensätze ergänzt.
Beispielbeispiel
WIT: Bildtextdatensatz basierend auf Wikipedia
Adresse: https://github.com/google-research-datasets/wit
Einführung: Der Wikipedia-basierte Image to Text (WIT)-Datensatz ist ein großer multimodaler mehrsprachiger Datensatz. WIT besteht aus einem kuratierten Satz von 37,6 Millionen entitätsreichen Bildtextbeispielen, die 11,5 Millionen einzigartige Bilder in 108 Wikipedia-Sprachen enthalten. Aufgrund seiner Größe kann WIT als Pre-Training-Datensatz für multimodale Modelle des maschinellen Lernens verwendet werden.
Paper WIT: Wikipedia-basierter Bildtextdatensatz für multimodales mehrsprachiges maschinelles Lernen
Beispielbeispiel
DiffusionDB
Adresse: https://huggingface.co/datasets/poloclub/diffusiondb
Einführung: DiffusionDB ist der erste groß angelegte Text-zu-Bild-Eingabeaufforderungsdatensatz. Es enthält 14 Millionen Bilder, die durch stabile Diffusion unter Verwendung realer, vom Benutzer festgelegter Hinweise und Hyperparameter generiert wurden. Die beispiellose Größe und Vielfalt dieses vom Menschen gesteuerten Datensatzes bietet spannende Forschungsmöglichkeiten zum Verständnis des Zusammenspiels zwischen Hinweisen und generativen Modellen, zur Erkennung von Deepfakes und zur Entwicklung von Mensch-Computer-Interaktionstools, um Benutzern die einfachere Nutzung dieser Modelle zu erleichtern. Die 2 Millionen Bilder in DiffusionDB 2M sind in 2.000 Ordner unterteilt, von denen jeder 1.000 Bilder und eine JSON-Datei enthält, die die 1.000 Bilder mit ihren Hinweisen und Hyperparametern verknüpft. Ebenso sind die 14 Millionen Bilder in DiffusionDB Large in 14.000 Ordner unterteilt.
Paper DiffusionDB: Ein umfangreicher Prompt Gallery-Datensatz für generative Text-zu-Bild-Modelle
Beispielbeispiel
DreamBooth: Feinabstimmung von Text-zu-Bild-Verbreitungsmodellen für die themengesteuerte Generierung
Adresse: https://github.com/google/dreambooth
Einleitung: Dieser Datensatz umfasst 30 Themen in 15 verschiedenen Kategorien. Neun davon waren lebende Subjekte (Hunde und Katzen) und 21 waren Objekte. Dieser Datensatz enthält eine variable Anzahl von Bildern (4–6) pro Motiv.
COCO-Stuff -Datensatz
# Get this repo git clone https://github.com/nightrome/cocostuff.git cd cocostuff # Download everything wget --directory-prefix=downloads http://images.cocodataset.org/zips/train2017.zip wget --directory-prefix=downloads http://images.cocodataset.org/zips/val2017.zip wget --directory-prefix=downloads http://calvin.inf.ed.ac.uk/wp-content/uploads/data/cocostuffdataset/stuffthingmaps_trainval2017.zip # Unpack everything mkdir -p dataset/images mkdir -p dataset/annotations unzip downloads/train2017.zip -d dataset/images/ unzip downloads/val2017.zip -d dataset/images/ unzip downloads/stuffthingmaps_trainval2017.zip -d dataset/annotations/
Adresse: https://github.com/nightrome/cocostuff
Einführung: COCO-Stuff erweitert alle 164.000 Bilder des beliebten COCO-Datensatzes [2] mit Inhaltsanmerkungen auf Pixelebene. Diese Anmerkungen können für Szenenverständnisaufgaben wie semantische Segmentierung, Objekterkennung und Bildunterschrift verwendet werden.
Beispielbeispiel
Befehlszeilen-Download
* Pick-a-Pic: Ein offener Datensatz mit Benutzerpräferenzen für die Text-zu-Bild-Generierung
Adresse: https://huggingface.co/datasets/yuvalkirstain/pickapic_v1
Einleitung: Der Pick-a-Pic-Datensatz wird über die Pick-a-Pic-Webanwendung erfasst und enthält über 500.000 Beispiele menschlicher Vorlieben für modellgenerierte Bilder. Den Datensatz mit URLs anstelle tatsächlicher Bilder (was ihn viel kleiner macht) finden Sie hier.
Befehlszeilen-Download [inländische Beschleunigung]
1. 下载hfd wget https://hf-mirror.com/hfd/hfd.sh chmod a+x hfd.sh 2. 设置环境变量 export HF_ENDPOINT=https://hf-mirror.com 3.1 下载模型 ./hfd.sh gpt2 --tool aria2c -x 4 3.2 下载数据集 ./hfd.sh yuvalkirstain/pickapic_v1 --dataset --tool aria2c -x 4
DeepFashion-MultiModal
Adresse: https://drive.google.com/drive/folders/1An2c_ZCkeGmhJg0zUjtZF46vyJgQwIr2
Einleitung: Bei diesem Datensatz handelt es sich um einen umfangreichen, hochwertigen Datensatz des menschlichen Körpers mit umfangreichen multimodalen Anmerkungen. Es verfügt über die folgenden Eigenschaften: Es enthält 44.096 hochauflösende Bilder des menschlichen Körpers, darunter 12.701 Ganzkörperbilder des menschlichen Körpers. Für jedes Ganzkörperbild kommentieren wir manuell 24 Kategorien von Body-Parsing-Beschriftungen. Für jedes Ganzkörperbild kommentieren wir wichtige Punkte manuell. Jedes Bild wird manuell mit Attributen wie Form und Textur der Kleidung versehen. Zu jedem Bild stellen wir eine Textbeschreibung zur Verfügung. DeepFashion-MultiModal kann auf die textgesteuerte Generierung menschlicher Bilder, die textgesteuerte Manipulation menschlicher Bilder, die skelettgesteuerte Generierung menschlicher Bilder, die Schätzung menschlicher Posen, Untertitel menschlicher Bilder, das multimodale Lernen menschlicher Bilder, die Erkennung menschlicher Attribute und die menschliche Anwendung angewendet werden Körperparsing-Vorhersage usw., dieser Datensatz wird in Text2Human präsentiert.
Artikel: Text2Human: Textgesteuerte steuerbare menschliche Bilderzeugung
DeepFashion
Adresse: https://mmlab.ie.cuhk.edu.hk/projects/DeepFashion.html
Einleitung: Bei diesem Datensatz handelt es sich um eine umfangreiche Bekleidungsdatenbank mit mehreren attraktiven Eigenschaften: Erstens enthält DeepFashion über 800.000 verschiedene Modebilder, von gestellten Ladenbildern bis hin zu uneingeschränkten Verbraucherfotos, und stellt damit die größte visuelle Modeanalysedatenbank dar. Zweitens kommentiert DeepFashion umfangreiche Informationen zu Kleidungsstücken. Jedes Bild in diesem Datensatz ist mit 50 Kategorien, 1.000 beschreibenden Attributen, Begrenzungsrahmen und Kleidungsmarkierungen versehen. Drittens enthält DeepFashion mehr als 300.000 Cross-Pose-/Domain-übergreifende Bildpaare. Mithilfe der DeepFashion-Datenbank wurden vier Benchmarks entwickelt, darunter Attributvorhersage, Abruf von Kleidung vom Verbraucher zum Geschäft, Abruf von Kleidung im Geschäft und Erkennung von Orientierungspunkten. Die Daten und Anmerkungen aus diesen Benchmarks können auch als Trainings- und Testsätze für Computer-Vision-Aufgaben wie Kleidungserkennung, Kleidungserkennung und Bildabruf verwendet werden.
Abschlussarbeit: ViscoNet: Überbrückung und Harmonisierung der visuellen und textuellen Konditionierung für ControlNet
COCO (COCO Captions) Datensatz
Adresse: https://cocodataset.org/#download
Einführung: COCO Captions ist ein Untertiteldatensatz, der auf das Szenenverständnis abzielt, Bilddaten aus Alltagsszenen erfasst und Bildbeschreibungen manuell generiert. Dieser Datensatz enthält 330.000 Bild-Text-Paare.
PaperText zur Bildgenerierung mithilfe von Generative Adversarial Networks (GANs)
Beispielbeispiel
CUBS-2000-2021 Datensatz
Adresse: https://www.vision.caltech.edu/datasets/cub_200_2011/
Zugehörige Daten: https://www.vision.caltech.edu/datasets/
Einleitung: Bei diesem Datensatz handelt es sich um einen feinkörnigen Datensatz, der 2010 vom California Institute of Technology vorgeschlagen wurde. Er ist auch der Benchmark-Bilddatensatz für die aktuelle Forschung zur feinkörnigen Klassifizierung und Erkennung. Der Datensatz enthält insgesamt 11.788 Vogelbilder, einschließlich 200 Vogelunterkategorien. Der Trainingsdatensatz enthält 5.794 Bilder. Jedes Bild enthält Informationen zur Bildklasse und zur Begrenzung des Vogels im Bildfeld. Schlüsselteilinformationen des Vogels und Attributinformationen des Vogels.
PaperText zur Bildgenerierung mithilfe von Generative Adversarial Networks (GANs)
Beispielbeispiel
102 Kategorie Blumendatensatz
Adresse: https://www.robots.ox.ac.uk/~vgg/data/flowers/102/
Einführung: Wir haben einen Datensatz mit 102 Kategorien erstellt, der aus 102 Blumenkategorien besteht. Die Blumen wurden in Großbritannien als gewöhnliche Blumen ausgewählt. Jede Kategorie besteht aus 40 bis 258 Bildern.
Beispielbeispiel
Referenz: https://blog.csdn.net/air__heaven/article/details/136141343
Nach dem Herunterladen des Bilddatensatzes müssen Sie zum Herunterladen auch den entsprechenden Textdatensatz verwenden: https://drive.google.com/file/d/1G4QRcRZ_s57giew6wgnxemwWRDb-3h5P/view
Flickr8k_dataset
Flickr8k_Dataset.zip https://github.com/jbrownlee/Datasets/releases/download/Flickr8k/Flickr8k_Dataset.zip Flickr8k_text.zip https://github.com/jbrownlee/Datasets/releases/download/Flickr8k/Flickr8k_text.zip
Flickr30k_dataset Flicken Sie den 30.000-Datensatz für Bildunterschriften
Adresse: https://www.kaggle.com/datasets/adityajn105/flickr30k
Einführung: Eine neue Benchmark-Sammlung für die satzbasierte Bildbeschreibung und -suche, bestehend aus 30.000 Bildern, jeweils mit fünf unterschiedlichen Bildunterschriften, die klare Beschreibungen hervorstechender Entitäten und Ereignisse liefern. …diese Bilder wurden aus sechs verschiedenen Flickr-Gruppen ausgewählt und enthalten oft keine bekannten Personen oder Orte, sondern sind handverlesen, um eine Vielzahl von Szenen und Situationen darzustellen
Adresse: https://www.robots.ox.ac.uk/~vgg/data/flowers/102/
Einführung: Eine neue Benchmark-Sammlung für satzbasierte Bildbeschreibung und -suche, bestehend aus 8.000 Bildern, jeweils begleitet von fünf unterschiedlichen Bildunterschriften, die klare Beschreibungen hervorstechender Entitäten und Ereignisse liefern. Die Bilder wurden aus sechs verschiedenen Flickr-Gruppen ausgewählt und enthalten in der Regel keine bekannten Personen oder Orte, sondern wurden von Hand ausgewählt, um verschiedene Szenen und Situationen darzustellen
Artikel: Bildunterschrift zur Bildgenerierung mithilfe von Deep Residual Generative Adversarial Networks [DR-GAN]
Der Substantivdatensatz fügt der Nomendatensatzkarte automatisch Titel hinzu
Adresse: https://huggingface.co/datasets/m1guelpf/nouns
Einführung: Ein Datensatz zum Trainieren von Text-zu-Bild-Modellen für Substantive, die automatisch Titel für Substantive basierend auf ihren Attributen, Farben und Elementen generieren. Für jede Zeile enthält der Datensatz Bild- und Textschlüssel. Bei den Bildern handelt es sich um PIL-JPEGs unterschiedlicher Größe und der Text ist die begleitende Textbeschriftung. Es sind nur Zugsplits verfügbar.
Beispielbeispiel
OxfordTVG-HIC-Datensatz Großformatiger Humor-Bildtext-Datensatz
Adresse: https://github.com/runjiali-rl/Oxford_HIC?tab=readme-ov-file
Einleitung: Dies ist ein großer Datensatz zur Erzeugung und zum Verständnis von Humor. Humor ist ein abstraktes, subjektives, kontextabhängiges kognitives Konstrukt, das mehrere kognitive Faktoren einbezieht, was seine Erzeugung und Interpretation zu einer herausfordernden Aufgabe macht. Oxford HIC stellt etwa 2,9 Millionen Bild-Text-Paare mit Humor-Scores zur Verfügung, um ein allgemeines Humor-Untertitelungsmodell zu trainieren. Im Gegensatz zu vorhandenen Untertiteldatensätzen weist Oxford HIC eine große Bandbreite an Stimmungen und semantischer Vielfalt auf, was dazu führt, dass Beispiele außerhalb des Kontexts besonders vorteilhaft für die Erzeugung von Humor sind.
Beispielbeispiel
Multi-Modal-CelebA-HQ großformatiger Gesichtsbild-Textdatensatz
Adresse: https://github.com/IIGROUP/MM-CelebA-HQ-Dataset
Einführung: Multi-Modal-CelebA-HQ (MM-CelebA-HQ) ist ein groß angelegter Gesichtsbilddatensatz mit 30.000 hochauflösenden Gesichtsbildern, die gemäß CelebA-HQ aus dem CelebA-Datensatz ausgewählt wurden. Zu jedem Bild im Datensatz gehören eine semantische Maske, eine Skizze, ein beschreibender Text und ein Bild mit transparentem Hintergrund. Multi-Modal-CelebA-HQ kann zum Trainieren und Evaluieren von Algorithmen für eine Reihe von Aufgaben verwendet werden, darunter Text-zu-Bild-Generierung, textgesteuerte Bildmanipulation, Skizze-zu-Bild-Generierung, Bildunterschrift und visuelle Beantwortung von Fragen. Dieser Datensatz wird in TediGAN eingeführt und verwendet.
Beispielbeispiel
Multimodal3DIdent: Ein multimodaler Datensatz von Bild-/Textpaaren, der aus kontrollierbaren Ground-Truth-Faktoren generiert wird
Adresse: https://zenodo.org/records/7678231
Einführung: Der offizielle Code zum Generieren des Multimodal3DIdent-Datensatzes wird im Artikel „Identifiability Results of Multimodal Contrastive Learning“ vorgestellt, der auf der ICLR 2023 veröffentlicht wurde. Dieser Datensatz stellt einen Erkennbarkeits-Benchmark bereit, der Bild-/Textpaare enthält, die aus kontrollierbaren Ground-Truth-Faktoren generiert wurden, von denen einige von Bild- und Textmodalitäten gemeinsam genutzt werden, wie im folgenden Beispiel gezeigt.
Artikel: Identifizierbarkeitsergebnisse für multimodales kontrastives Lernen