Bilddatensätze zur kontrollierten Textgenerierung
Steuerbarer Datensatz zur Text-zu-Bild-Generierung
2D-Datensatz
1. Datensatz vor dem Training
Noah-Wukong-Datensatz
- Adresse: https://wukong-dataset.github.io/wukong-dataset/download.html
- Einführung: Der Noah-Wukong-Datensatz ist ein umfangreicher multimodaler chinesischer Datensatz. Dieser Datensatz enthält 100 Millionen -Paare.
Zero: Feinabstimmung von Text-zu-Bild-Diffusionsmodellen für die themengesteuerte Generierung
- Adresse: https://zero.so.com/download.html
- Einführung: Zero ist ein groß angelegter chinesischer modalübergreifender Benchmark, der aus zwei Pre-Training-Datensätzen namens Zero-Corpus und fünf Downstream-Datensätzen besteht.
- Datensatz vor dem Training: 23 Millionen Datensätze (Nullkorpus). Der Nullkorpus wird von Suchmaschinen gesammelt und enthält Bilder und entsprechende Textbeschreibungen, gefiltert aus 5 Milliarden Bild-Text-Paaren basierend auf den Klickraten der Benutzer. 2,3 Millionen Datensätze (Zero-Corpus-Sub). Teildatensatz des Nullkorpus. Das Training eines VLP-Modells auf einem Nullkorpus kann umfangreiche GPU-Ressourcen erfordern, daher wird für Forschungszwecke auch ein Unterdatensatz mit 10 % Bild-Text-Paaren bereitgestellt.
- Downstream-Datensatz
- ICM ist für Bild-Text-Matching-Aufgaben konzipiert. Es enthält 400.000 Bild-Text-Paare, darunter 200.000 Positivbeispiele und 200.000 Negativbeispiele.
- IQM ist auch ein Datensatz, der für Bild-Text-Abgleichsaufgaben verwendet wird. Im Gegensatz zu ICM verwenden wir Suchanfragen anstelle von detaillierten Beschreibungstexten. Ebenso enthält IQM 200.000 positive Fälle und 200.000 negative Fälle.
- ICR haben wir 200.000 Bild-Text-Paare gesammelt. Es enthält Bild-zu-Text-Abruf- und Text-zu-Bild-Abrufaufgaben.
- IQR IQR wurde auch für Bildtext-Retrieval-Aufgaben vorgeschlagen. Wir wählen zufällig 200.000 Abfragen und entsprechende Bilder als annotierte Bild-Abfrage-Paare ähnlich wie bei IQM aus.
- Flickr30k-CNA Wir haben professionelle Englisch-Chinesisch-Linguisten zusammengestellt, um alle Flickr30k-Daten sorgfältig neu zu übersetzen und jeden Satz sorgfältig zu überprüfen. Beijing Magic Data Technology Co., Ltd. hat zur Übersetzung dieses Datensatzes beigetragen.
Flickr 30k-Datensatz
- Adresse: https://shannon.cs.illinois.edu/DenotationGraph/data/index.html
- Einleitung: Der Flickr 30k-Datensatz besteht aus Bildern, die von Flickr bezogen wurden.
Visueller Genomdatensatz
- Adresse: http://visualgenome.org/
- Einführung: Visual Genome ist ein umfangreicher Datensatz zum semantischen Verständnis von Bildern, der 2016 von Li Feifei veröffentlicht wurde und Bild- sowie Frage- und Antwortdaten enthält. Die Annotationen sind dicht und die Semantik vielfältig. Dieser Datensatz enthält 5 Millionen Bild-Text-Paare.
Konzeptionelle Bildunterschriften (CC)-Datensatz
- Adresse: https://ai.google.com/research/ConceptualCaptions/download
- Einführung: Conceptual Captions (CC) sind nicht-menschliche kommentierte multimodale Daten, einschließlich Bild-URL und Untertitel. Die entsprechende Untertitelbeschreibung wird aus dem Alt-Text-Attribut der Website gefiltert. Der CC-Datensatz ist aufgrund unterschiedlicher Datenmengen in zwei Versionen unterteilt: CC3M (ca. 3,3 Millionen Bild-Text-Paare) und CC12M (ca. 12 Millionen Bild-Text-Paare).
YFCC100M-Datensatz
- Adresse: http://projects.dfki.uni-kl.de/yfcc100m/
- Einführung: Die YFCC100M-Datenbank ist eine Bilddatenbank, die seit 2014 auf Yahoo Flickr basiert. Die Datenbank besteht aus 100 Millionen Mediendaten, die zwischen 2004 und 2014 generiert wurden, darunter 99,2 Millionen Fotodaten und 800.000 Videodaten. Der YFCC100M-Datensatz erstellt ein Textdatendokument basierend auf der Datenbank. Jede Zeile im Dokument ist ein Teil der Metadaten eines Fotos oder Videos.
ALT200M-Datensatz
- Adresse: Keine
- [Einführung]: ALT200M ist ein umfangreicher Bild-Text-Datensatz, der vom Microsoft-Team erstellt wurde, um die Merkmale von Skalierungstrends bei Beschreibungsaufgaben zu untersuchen. Dieser Datensatz enthält 200 Millionen Bild-Text-Paare. Die entsprechende Textbeschreibung wird aus dem Alt-Text-Attribut der Website gefiltert. (Privater Datensatz, kein Datensatz-Link)
LAION-400M-Datensatz
- Adresse: https://laion.ai/blog/laion-400-open-dataset/
- Einführung: LAION-400M ruft über CommonCrwal Text und Bilder von Webseiten aus den Jahren 2014 bis 2021 ab und verwendet dann CLIP, um Bild-Text-Paare mit einer Bild- und Text-Einbettungsähnlichkeit von weniger als 0,3 herauszufiltern, wodurch letztendlich 400 Millionen Bild-Text-Paare erhalten bleiben. Allerdings enthält LAION-400M eine große Anzahl unbequemer Bilder, was einen größeren Einfluss auf die Aufgabe der Text- und Bildgenerierung hat. Viele Menschen nutzen diesen Datensatz, um pornografische Bilder zu erzeugen – mit negativem Ergebnis. Daher werden größere und sauberere Datensätze erforderlich.
LAION-5B-Datensatz
- Adresse: https://laion.ai/blog/laion-5b/
- Einleitung: LAION-5B ist der größte derzeit bekannte multimodale Datensatz und Open Source. Es ruft Text und Bilder über CommonCrawl ab und verwendet dann CLIP, um Bild-Text-Paare herauszufiltern, deren Bild- und Texteinbettungsähnlichkeit weniger als 0,28 beträgt, wodurch letztendlich 5 Milliarden Bild-Text-Paare erhalten bleiben. Der Datensatz enthält 2,32 Milliarden Beschreibungen in Englisch, 2,26 Milliarden in über 100 anderen Sprachen und 1,27 Milliarden unbekannte Sprachen.
Wikipedia-basierter Bildtext-Datensatz (WIT). Wikipedia-basierter Bildtext-Datensatz (WIT).
- Adresse: https://github.com/google-research-datasets/wit/blob/main/DATA.md
- Einleitung: Der WIT-Datensatz (Wikipedia-basierter Bildtext) ist ein großer multimodaler mehrsprachiger Datensatz mit mehr als 37 Millionen Bildtextsätzen und mehr als 11 Millionen einzigartigen Bildern in mehr als 100 Sprachen. Wir stellen WIT als Satz von 10 TSV-Dateien (gezippt) zur Verfügung. Die Gesamtgröße des Datensatzes beträgt ca. 25 GB. Dies ist der gesamte Trainingsdatensatz. Wenn Sie schnell loslegen möchten, wählen Sie eine der ca. 2,5 GB großen Dateien aus, die Ihnen ca. 10 % der Daten liefern und einen Satz von ca. 3,5 Mio. Bildtextbeispielen enthalten. Wir bieten auch Validierungs- und Testsätze (jeweils 5 Dateien) an.
LAION-5B-Datensatz
- Adresse: https://laion.ai/blog/laion-5b/
- Einleitung: LAION-5B ist der größte derzeit bekannte multimodale Datensatz und Open Source. Es ruft Text und Bilder über CommonCrawl ab und verwendet dann CLIP, um Bild-Text-Paare herauszufiltern, deren Bild- und Texteinbettungsähnlichkeit weniger als 0,28 beträgt, wodurch letztendlich 5 Milliarden Bild-Text-Paare erhalten bleiben. Der Datensatz enthält 2,32 Milliarden Beschreibungen in Englisch, 2,26 Milliarden in über 100 anderen Sprachen und 1,27 Milliarden unbekannte Sprachen.
TaiSu (TaiSu – groß angelegter Datensatz zur Vorschulung der chinesischen visuellen Sprache auf Milliardenebene)
- Adresse: https://github.com/ksOAn6g5/TaiSu
- Einführung: TaiSu: 166 Mio. großer, hochwertiger Datensatz für die Vorschulung der chinesischen Bildsprache
COYO-700M: Umfangreicher Bild-Text-Paar-Datensatz
- Adresse: https://huggingface.co/datasets/kakaobrain/coyo-700m
- Einführung: COYO-700M ist ein großer Datensatz, der 747 Millionen Bild-Text-Paare sowie viele andere Metaattribute enthält, um die Benutzerfreundlichkeit beim Training verschiedener Modelle zu verbessern. Unser Datensatz folgt einer ähnlichen Strategie wie frühere visuelle und sprachliche Datensätze und sammelt viele informative Alternativtexte und die zugehörigen Bildpaare in HTML-Dokumenten. Wir erwarten, dass COYO zum Trainieren beliebter groß angelegter Basismodelle verwendet wird und andere ähnliche Datensätze ergänzt.
- Beispielbeispiel
WIT: Bildtextdatensatz basierend auf Wikipedia
- Adresse: https://github.com/google-research-datasets/wit
- Einführung: Der Wikipedia-basierte Image to Text (WIT)-Datensatz ist ein großer multimodaler mehrsprachiger Datensatz. WIT besteht aus einem kuratierten Satz von 37,6 Millionen entitätsreichen Bildtextbeispielen, die 11,5 Millionen einzigartige Bilder in 108 Wikipedia-Sprachen enthalten. Aufgrund seiner Größe kann WIT als Pre-Training-Datensatz für multimodale Modelle des maschinellen Lernens verwendet werden.
- Paper WIT: Wikipedia-basierter Bildtextdatensatz für multimodales mehrsprachiges maschinelles Lernen
- Beispielbeispiel
DiffusionDB
- Adresse: https://huggingface.co/datasets/poloclub/diffusiondb
- Einführung: DiffusionDB ist der erste groß angelegte Text-zu-Bild-Eingabeaufforderungsdatensatz. Es enthält 14 Millionen Bilder, die durch stabile Diffusion unter Verwendung realer, vom Benutzer festgelegter Hinweise und Hyperparameter generiert wurden. Die beispiellose Größe und Vielfalt dieses vom Menschen gesteuerten Datensatzes bietet spannende Forschungsmöglichkeiten zum Verständnis des Zusammenspiels zwischen Hinweisen und generativen Modellen, zur Erkennung von Deepfakes und zur Entwicklung von Mensch-Computer-Interaktionstools, um Benutzern die einfachere Nutzung dieser Modelle zu erleichtern. Die 2 Millionen Bilder in DiffusionDB 2M sind in 2.000 Ordner unterteilt, von denen jeder 1.000 Bilder und eine JSON-Datei enthält, die die 1.000 Bilder mit ihren Hinweisen und Hyperparametern verknüpft. Ebenso sind die 14 Millionen Bilder in DiffusionDB Large in 14.000 Ordner unterteilt.
- Paper DiffusionDB: Ein umfangreicher Prompt Gallery-Datensatz für generative Text-zu-Bild-Modelle
- Beispielbeispiel
2. Vincent-Diagramm-Feinabstimmungsdatensatz
- DreamBooth: Feinabstimmung von Text-zu-Bild-Verbreitungsmodellen für die themengesteuerte Generierung
- Adresse: https://github.com/google/dreambooth
- Einleitung: Dieser Datensatz umfasst 30 Themen in 15 verschiedenen Kategorien. Neun davon waren lebende Subjekte (Hunde und Katzen) und 21 waren Objekte. Dieser Datensatz enthält eine variable Anzahl von Bildern (4–6) pro Motiv.
3. Steuerbarer Bilddatensatz zur Textgenerierung
- COCO-Stuff -Datensatz
- Adresse: https://github.com/nightrome/cocostuff
- Einführung: COCO-Stuff erweitert alle 164.000 Bilder des beliebten COCO-Datensatzes [2] mit Inhaltsanmerkungen auf Pixelebene. Diese Anmerkungen können für Szenenverständnisaufgaben wie semantische Segmentierung, Objekterkennung und Bildunterschrift verwendet werden.
- Beispielbeispiel
- Befehlszeilen-Download
# Get this repo
git clone https://github.com/nightrome/cocostuff.git
cd cocostuff
# Download everything
wget --directory-prefix=downloads http://images.cocodataset.org/zips/train2017.zip
wget --directory-prefix=downloads http://images.cocodataset.org/zips/val2017.zip
wget --directory-prefix=downloads http://calvin.inf.ed.ac.uk/wp-content/uploads/data/cocostuffdataset/stuffthingmaps_trainval2017.zip
# Unpack everything
mkdir -p dataset/images
mkdir -p dataset/annotations
unzip downloads/train2017.zip -d dataset/images/
unzip downloads/val2017.zip -d dataset/images/
unzip downloads/stuffthingmaps_trainval2017.zip -d dataset/annotations/
- * Pick-a-Pic: Ein offener Datensatz mit Benutzerpräferenzen für die Text-zu-Bild-Generierung
- Adresse: https://huggingface.co/datasets/yuvalkirstain/pickapic_v1
- Einleitung: Der Pick-a-Pic-Datensatz wird über die Pick-a-Pic-Webanwendung erfasst und enthält über 500.000 Beispiele menschlicher Vorlieben für modellgenerierte Bilder. Den Datensatz mit URLs anstelle tatsächlicher Bilder (was ihn viel kleiner macht) finden Sie hier.
- Befehlszeilen-Download [inländische Beschleunigung]
1. 下载hfd
wget https://hf-mirror.com/hfd/hfd.sh
chmod a+x hfd.sh
2. 设置环境变量
export HF_ENDPOINT=https://hf-mirror.com
3.1 下载模型
./hfd.sh gpt2 --tool aria2c -x 4
3.2 下载数据集
./hfd.sh yuvalkirstain/pickapic_v1 --dataset --tool aria2c -x 4
DeepFashion-MultiModal
- Adresse: https://drive.google.com/drive/folders/1An2c_ZCkeGmhJg0zUjtZF46vyJgQwIr2
- Einleitung: Bei diesem Datensatz handelt es sich um einen umfangreichen, hochwertigen Datensatz des menschlichen Körpers mit umfangreichen multimodalen Anmerkungen. Es verfügt über die folgenden Eigenschaften: Es enthält 44.096 hochauflösende Bilder des menschlichen Körpers, darunter 12.701 Ganzkörperbilder des menschlichen Körpers. Für jedes Ganzkörperbild kommentieren wir manuell 24 Kategorien von Body-Parsing-Beschriftungen. Für jedes Ganzkörperbild kommentieren wir manuell wichtige Punkte. Jedes Bild wird manuell mit Attributen wie Form und Textur der Kleidung versehen. Zu jedem Bild stellen wir eine Textbeschreibung zur Verfügung. DeepFashion-MultiModal kann auf die textgesteuerte Generierung menschlicher Bilder, die textgesteuerte Manipulation menschlicher Bilder, die skelettgesteuerte Generierung menschlicher Bilder, die Schätzung menschlicher Posen, Untertitel menschlicher Bilder, das multimodale Lernen menschlicher Bilder, die Erkennung menschlicher Attribute und die menschliche Anwendung angewendet werden Körperparsing-Vorhersage usw., dieser Datensatz wird in Text2Human präsentiert.
- Artikel: Text2Human: Textgesteuerte steuerbare menschliche Bilderzeugung
DeepFashion
- Adresse: https://mmlab.ie.cuhk.edu.hk/projects/DeepFashion.html
- Einleitung: Bei diesem Datensatz handelt es sich um eine umfangreiche Bekleidungsdatenbank mit mehreren attraktiven Eigenschaften: Erstens enthält DeepFashion über 800.000 verschiedene Modebilder, von gestellten Ladenbildern bis hin zu uneingeschränkten Verbraucherfotos, und stellt damit die größte visuelle Modeanalysedatenbank dar. Zweitens kommentiert DeepFashion umfangreiche Informationen zu Kleidungsstücken. Jedes Bild in diesem Datensatz ist mit 50 Kategorien, 1.000 beschreibenden Attributen, Begrenzungsrahmen und Kleidungsmarkierungen versehen. Drittens enthält DeepFashion mehr als 300.000 Cross-Pose-/Domain-übergreifende Bildpaare. Mithilfe der DeepFashion-Datenbank wurden vier Benchmarks entwickelt, darunter Attributvorhersage, Abruf von Kleidung vom Verbraucher zum Geschäft, Abruf von Kleidung im Geschäft und Erkennung von Orientierungspunkten. Die Daten und Anmerkungen aus diesen Benchmarks können auch als Trainings- und Testsätze für Computer-Vision-Aufgaben wie Kleidungserkennung, Kleidungserkennung und Bildabruf verwendet werden.
- Abschlussarbeit: ViscoNet: Überbrückung und Harmonisierung der visuellen und textuellen Konditionierung für ControlNet
COCO (COCO Captions) Datensatz
- Adresse: https://cocodataset.org/#download
- Einführung: COCO Captions ist ein Untertiteldatensatz, der auf das Szenenverständnis abzielt, Bilddaten aus Alltagsszenen erfasst und Bildbeschreibungen manuell generiert. Dieser Datensatz enthält 330.000 Bild-Text-Paare.
- PaperText zur Bildgenerierung mithilfe von Generative Adversarial Networks (GANs)
- Beispielbeispiel
CUBS-2000-2021 Datensatz
- Adresse: https://www.vision.caltech.edu/datasets/cub_200_2011/
- Zugehörige Daten: https://www.vision.caltech.edu/datasets/
- Einleitung: Bei diesem Datensatz handelt es sich um einen feinkörnigen Datensatz, der 2010 vom California Institute of Technology vorgeschlagen wurde. Er ist auch der Benchmark-Bilddatensatz für die aktuelle Forschung zur feinkörnigen Klassifizierung und Erkennung. Der Datensatz enthält insgesamt 11.788 Vogelbilder, einschließlich 200 Vogelunterkategorien. Der Trainingsdatensatz enthält 5.794 Bilder. Jedes Bild enthält Informationen zur Bildklasse und zur Begrenzung des Vogels im Bildfeld. Schlüsselteilinformationen des Vogels und Attributinformationen des Vogels.
- PaperText zur Bildgenerierung mithilfe von Generative Adversarial Networks (GANs)
- Beispielbeispiel
102 Kategorie Blumendatensatz
- Adresse: https://www.robots.ox.ac.uk/~vgg/data/flowers/102/
- Einführung: Wir haben einen Datensatz mit 102 Kategorien erstellt, der aus 102 Blumenkategorien besteht. Diese Blumen wurden in Großbritannien als häufige Blumen ausgewählt. Jede Kategorie besteht aus 40 bis 258 Bildern.
- Beispielbeispiel
- Referenz: https://blog.csdn.net/air__heaven/article/details/136141343
- Nach dem Herunterladen des Bilddatensatzes müssen Sie zum Herunterladen auch den entsprechenden Textdatensatz verwenden: https://drive.google.com/file/d/1G4QRcRZ_s57giew6wgnxemwWRDb-3h5P/view
Flickr8k_dataset
- Adresse: https://www.robots.ox.ac.uk/~vgg/data/flowers/102/
- Einführung: Eine neue Benchmark-Sammlung für satzbasierte Bildbeschreibung und -suche, bestehend aus 8.000 Bildern, jeweils begleitet von fünf unterschiedlichen Bildunterschriften, die klare Beschreibungen hervorstechender Entitäten und Ereignisse liefern. Die Bilder wurden aus sechs verschiedenen Flickr-Gruppen ausgewählt und enthalten in der Regel keine bekannten Personen oder Orte, sondern sind handverlesen, um eine Vielzahl von Szenen und Situationen darzustellen
- Artikel: Bildunterschrift zur Bildgenerierung mithilfe von Deep Residual Generative Adversarial Networks [DR-GAN]
Flickr8k_Dataset.zip https://github.com/jbrownlee/Datasets/releases/download/Flickr8k/Flickr8k_Dataset.zip
Flickr8k_text.zip https://github.com/jbrownlee/Datasets/releases/download/Flickr8k/Flickr8k_text.zip
- Flickr30k_dataset Flicken Sie den 30.000-Datensatz für Bildunterschriften
- Adresse: https://www.kaggle.com/datasets/adityajn105/flickr30k
- Einführung: Eine neue Benchmark-Sammlung für die satzbasierte Bildbeschreibung und -suche, bestehend aus 30.000 Bildern, jeweils mit fünf unterschiedlichen Bildunterschriften, die klare Beschreibungen hervorstechender Entitäten und Ereignisse liefern. …diese Bilder wurden aus sechs verschiedenen Flickr-Gruppen ausgewählt und enthalten oft keine bekannten Personen oder Orte, sondern sind handverlesen, um eine Vielzahl von Szenen und Situationen darzustellen
Der Substantivdatensatz fügt der Nomendatensatzkarte automatisch Titel hinzu
- Adresse: https://huggingface.co/datasets/m1guelpf/nouns
- Einführung: Ein Datensatz zum Trainieren von Text-zu-Bild-Modellen für Substantive, die automatisch Titel für Substantive basierend auf ihren Attributen, Farben und Elementen generieren. Für jede Zeile enthält der Datensatz Bild- und Textschlüssel. Bei den Bildern handelt es sich um PIL-JPEGs unterschiedlicher Größe und der Text ist die begleitende Textbeschriftung. Es sind nur Zugsplits verfügbar.
- Beispielbeispiel
OxfordTVG-HIC-Datensatz Großformatiger Humor-Bildtext-Datensatz
- Adresse: https://github.com/runjiali-rl/Oxford_HIC?tab=readme-ov-file
- Einleitung: Dies ist ein großer Datensatz zur Erzeugung und zum Verständnis von Humor. Humor ist ein abstraktes, subjektives, kontextabhängiges kognitives Konstrukt, das mehrere kognitive Faktoren einbezieht, was seine Erzeugung und Interpretation zu einer herausfordernden Aufgabe macht. Oxford HIC stellt etwa 2,9 Millionen Bild-Text-Paare mit Humor-Scores zur Verfügung, um ein allgemeines Humor-Untertitelungsmodell zu trainieren. Im Gegensatz zu vorhandenen Untertiteldatensätzen verfügt Oxford HIC über eine große Bandbreite an Stimmungen und semantischer Vielfalt, was dazu führt, dass Beispiele außerhalb des Kontexts besonders vorteilhaft für die Erzeugung von Humor sind.
- Beispielbeispiel
Multi-Modal-CelebA-HQ großformatiger Textdatensatz für Gesichtsbilder
- Adresse: https://github.com/IIGROUP/MM-CelebA-HQ-Dataset
- Einführung: Multi-Modal-CelebA-HQ (MM-CelebA-HQ) ist ein groß angelegter Gesichtsbilddatensatz mit 30.000 hochauflösenden Gesichtsbildern, die gemäß CelebA-HQ aus dem CelebA-Datensatz ausgewählt wurden. Zu jedem Bild im Datensatz gehören eine semantische Maske, eine Skizze, ein beschreibender Text und ein Bild mit transparentem Hintergrund. Mit Multi-Modal-CelebA-HQ können Algorithmen für eine Reihe von Aufgaben trainiert und bewertet werden, darunter Text-zu-Bild-Generierung, textgesteuerte Bildmanipulation, Skizze-zu-Bild-Generierung, Bildunterschrift und visuelle Beantwortung von Fragen. Dieser Datensatz wird in TediGAN eingeführt und verwendet.
- Beispielbeispiel
3D-Datensatz
1. Datensatz vor dem Training
- Multimodal3DIdent: Ein multimodaler Datensatz von Bild-/Textpaaren, der aus kontrollierbaren Ground-Truth-Faktoren generiert wird
- Adresse: https://zenodo.org/records/7678231
- Einführung: Der offizielle Code zum Generieren des Multimodal3DIdent-Datensatzes wird im Artikel „Identifiability Results of Multimodal Contrastive Learning“ vorgestellt, der auf der ICLR 2023 veröffentlicht wurde. Dieser Datensatz stellt einen Erkennbarkeits-Benchmark bereit, der Bild-/Textpaare enthält, die aus kontrollierbaren Ground-Truth-Faktoren generiert wurden, von denen einige von Bild- und Textmodalitäten gemeinsam genutzt werden, wie im folgenden Beispiel gezeigt.
- Artikel: Identifizierbarkeitsergebnisse für multimodales kontrastives Lernen
2. Vincent-Diagramm-Feinabstimmungsdatensatz
3. Steuerbarer Bilddatensatz zur Textgenerierung