可控文字到圖像生成資料集
Noah-Wukong Dataset
網址:https://wukong-dataset.github.io/wukong-dataset/download.html
簡介:Noah-Wukong 資料集是一個大規模多模態中文資料集。該資料集包含1 億個<image, text> 對。
Zero:微調文字到影像的擴散模型以實現主題驅動的生成
預訓練資料集2,300 萬個資料集(零語料庫)。零語料庫是從搜尋引擎收集的,包含圖像和相應的文字描述,是根據用戶點擊率從50 億個圖文對中篩選出來的。 230 萬個資料集(Zero-Corpus-Sub)。零語料庫的子資料集。在零語料庫上訓練VLP 模型可能需要大量的GPU 資源,因此也提供了包含10% 圖文對的子資料集用於研究目的。
下游數據集
ICM它是為圖像文字匹配任務而設計的。它包含400,000 個圖像文字對,其中包括200,000 個正例和200,000 個負例。
IQM它也是一個用於圖像文字匹配任務的資料集。與ICM 不同,我們使用搜尋查詢而不是詳細描述文字。同樣,IQM 包含200,000 個陽性病例和200,000 個陰性病例。
ICR我們收集了200,000 個圖像-文字對。它包含圖像到文字檢索和文字到圖像檢索任務。
IQR IQR 也被提出用於圖像文字檢索任務。我們隨機選擇200,000 個查詢和相應的圖像作為類似於IQM 的註釋的圖像-查詢對。
Flickr30k-CNA我們聚集了專業的英漢語言學家,精心重新翻譯Flickr30k的所有數據,並仔細檢查每個句子。北京魔數資料科技有限公司為本資料集的翻譯做出了貢獻。
網址:https://zero.so.com/download.html
簡介:Zero是一個大規模的中文跨模態基準,包含兩個稱為Zero-Corpus的預訓練資料集和五個下游資料集。
Flickr 30k Dataset
網址:https://shannon.cs.illinois.edu/DenotationGraph/data/index.html
簡介:Flickr 30k 資料集包括從Flickr取得的圖像。
Visual Genome Dataset
網址:http://visualgenome.org/
簡介:Visual Genome是李飛飛在2016年發布的大規模圖片語義理解資料集,包含圖像和問答資料。標註密集,語意多樣。此資料集包含5M個圖文對。
Conceptual Captions(CC) Dataset
網址:https://ai.google.com/research/ConceptualCaptions/download
簡介:Conceptual Captions(CC)是一個非人工註釋的多模態數據,包含圖像URL以及字幕。對應的字幕描述是從網站的alt-text屬性過濾而來。 CC資料集因為資料量的不同分為CC3M(約330萬對圖文對)以及CC12M(約1200萬對圖文對)兩個版本。
YFCC100M Dataset
網址:http://projects.dfki.uni-kl.de/yfcc100m/
簡介:YFCC100M資料庫是2014年來基於雅虎Flickr的影像資料庫。該庫由一億條產生於2004年至2014年間的多條媒體資料組成,其中包含了9,920萬張的照片資料以及80萬個影片資料。 YFCC100M資料集是在資料庫的基礎之上建立了一個文字資料文檔,文件中每一行都是一條照片或影片的元資料。
ALT200M Dataset
地址:無
[簡介]:ALT200M是微軟團隊為了研究縮放趨勢在描述任務上的特徵而建構的大規模圖像-文字資料集。此資料集包含200M個圖像-文字對。對應的文字描述是從網站的alt-text屬性過濾而來。 (私有資料集,無資料集連結)
LAION-400M Dataset
網址:https://laion.ai/blog/laion-400-open-dataset/
簡介:LAION-400M透過CommonCrwal取得2014-2021年網頁中的文字和圖片,然後使用CLIP過濾掉圖像和文字嵌入相似度低於0.3的圖文對,最終保留4億個圖像-文字對。然而,LAION-400M含有大量令人不適的圖片,對文圖產生任務影響較大。很多人用該資料集來產生色情圖片,產生不好的影響。因此,更大更乾淨的數據集成為需求。
LAION-5B Dataset
網址:https://laion.ai/blog/laion-5b/
簡介:LAION-5B是目前已知且開源的最大規模的多模態資料集。它透過CommonCrawl獲取文字和圖片,然後使用CLIP過濾掉圖像和文字嵌入相似度低於0.28的圖文對,最終保留下來50億個圖像-文字對。資料集包含23.2億的英文描述,22.6億個100+其他語言以及12.7億的未知語。
Wikipedia-based Image Text (WIT) Dataset 基於維基百科的圖像文字(WIT) 資料集
網址:https://github.com/google-research-datasets/wit/blob/main/DATA.md
簡介:WIT(基於維基百科的圖像文字)資料集是一個大型多模式多語言資料集,包含3,700 多萬個圖像文字集,其中包含1,100 萬多個跨100 多種語言的獨特圖像。我們以一組10 個tsv 檔案(壓縮)的形式提供WIT。資料集總大小約25GB。這是整個訓練資料集。如果您想快速開始,請選擇任何一個大約2.5GB 的文件,該文件將為您提供大約10% 的數據,其中包含大約350 萬+ 圖像文字範例集。 我們也包括驗證集和測試集(各5 個檔案)。
LAION-5B Dataset
網址:https://laion.ai/blog/laion-5b/
簡介:LAION-5B是目前已知且開源的最大規模的多模態資料集。它透過CommonCrawl獲取文字和圖片,然後使用CLIP過濾掉圖像和文字嵌入相似度低於0.28的圖文對,最終保留下來50億個圖像-文字對。資料集包含23.2億的英文描述,22.6億個100+其他語言以及12.7億的未知語。
TaiSu(太素--億級大規模中文視覺語言預訓練資料集)
網址:https://github.com/ksOAn6g5/TaiSu
簡介:TaiSu:166M大規模高品質中文視覺語言預訓練資料集
COYO-700M:大規模圖像文字對資料集
網址:https://huggingface.co/datasets/kakaobrain/coyo-700m
簡介:COYO-700M 是一個大型資料集,包含747M 個圖像文字對以及許多其他元屬性,以提高訓練各種模型的可用性。我們的資料集遵循與先前的視覺和語言資料集類似的策略,收集HTML 文件中許多資訊豐富的替代文字及其相關圖像對。我們期望COYO 用於訓練流行的大規模基礎模型,與其他類似資料集互補。
樣本範例
WIT:基於維基百科的圖像文字資料集
網址:https://github.com/google-research-datasets/wit
簡介:基於維基百科的圖像文字(WIT)資料集是一個大型多模態多語言資料集。 WIT 由一組精選的3760 萬個實體豐富的圖像文字範例組成,其中包含1150 萬個跨108 種維基百科語言的獨特圖像。其大小使得WIT 能夠用作多模式機器學習模型的預訓練資料集。
論文WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning
樣本範例
DiffusionDB
網址:https://huggingface.co/datasets/poloclub/diffusiondb
簡介:DiffusionDB 是第一個大規模文字到圖像提示資料集。它包含由穩定擴散使用真實使用者指定的提示和超參數產生的1400 萬張影像。這個人類驅動的數據集前所未有的規模和多樣性為理解提示和生成模型之間的相互作用、檢測深度偽造以及設計人機交互工具以幫助用戶更輕鬆地使用這些模型提供了令人興奮的研究機會。 DiffusionDB 2M 中的200 萬張圖像被分為2,000 個資料夾,其中每個資料夾包含1,000 個圖像和一個JSON 文件,該文件將這1,000 個圖像連結到它們的提示和超參數。同樣,DiffusionDB Large 中的1400 萬張圖像被分成14000 個資料夾。
論文DiffusionDB: A Large-scale Prompt Gallery Dataset for Text-to-Image Generative Models
樣本範例
DreamBooth:微調文字到圖像的擴散模型以實現主題驅動的生成
網址:https://github.com/google/dreambooth
簡介:此資料集包括15 個不同類別的30 個科目。其中9 個是活體主體(狗和貓),21 個是物體。此資料集包含每個主題的可變數量的圖像(4-6)。
COCO-Stuff Dataset
# Get this repo git clone https://github.com/nightrome/cocostuff.git cd cocostuff # Download everything wget --directory-prefix=downloads http://images.cocodataset.org/zips/train2017.zip wget --directory-prefix=downloads http://images.cocodataset.org/zips/val2017.zip wget --directory-prefix=downloads http://calvin.inf.ed.ac.uk/wp-content/uploads/data/cocostuffdataset/stuffthingmaps_trainval2017.zip # Unpack everything mkdir -p dataset/images mkdir -p dataset/annotations unzip downloads/train2017.zip -d dataset/images/ unzip downloads/val2017.zip -d dataset/images/ unzip downloads/stuffthingmaps_trainval2017.zip -d dataset/annotations/
網址:https://github.com/nightrome/cocostuff
簡介:COCO-Stuff 使用像素級內容註釋增強了流行的COCO [2] 資料集的所有164K 影像。這些註釋可用於場景理解任務,例如語義分割、物件偵測和影像字幕。
樣本範例
命令列下載
* Pick-a-Pic:用於文字到圖像生成的使用者首選項的開放資料集
網址:https://huggingface.co/datasets/yuvalkirstain/pickapic_v1
簡介:Pick-a-Pic 資料集是透過Pick-a-Pic Web 應用程式收集的,包含超過50 萬人類別對模型生成圖像的偏好範例。可以在此處找到具有URL 而不是實際圖像(這使其尺寸小得多)的資料集。
命令列下載【國內加速】
1. 下载hfd wget https://hf-mirror.com/hfd/hfd.sh chmod a+x hfd.sh 2. 设置环境变量 export HF_ENDPOINT=https://hf-mirror.com 3.1 下载模型 ./hfd.sh gpt2 --tool aria2c -x 4 3.2 下载数据集 ./hfd.sh yuvalkirstain/pickapic_v1 --dataset --tool aria2c -x 4
DeepFashion-MultiModal
地址:https://drive.google.com/drive/folders/1An2c_ZCkeGmhJg0zUjtZF46vyJgQwIr2
簡介:此資料集是一個具有豐富多模態註釋的大規模高品質人體資料集。它具有以下屬性:它包含44,096張高分辨率人體圖像,其中12,701張全身人體圖像。對於每張全身影像,我們手動註釋24 個類別的人體解析標籤。對於每張全身影像,我們手動註釋關鍵點。每張圖像都手動標註了衣服形狀和紋理的屬性。我們為每張圖像提供文字描述。 DeepFashion-MultiModal 可應用於文字驅動的人體圖像生成、文字引導的人體圖像操作、骨架引導的人體圖像生成、人體姿勢估計、人體圖像字幕、人體圖像的多模態學習、人體屬性識別、人體解析預測等,該資料集是在Text2Human 中提出的。
論文:Text2Human: Text-Driven Controllable Human Image Generation
DeepFashion
網址:https://mmlab.ie.cuhk.edu.hk/projects/DeepFashion.html
簡介:這個資料集是一個大規模的服裝資料庫,它有幾個吸引人的特性:首先,DeepFashion包含超過80萬張多樣化的時尚圖片,從擺好姿勢的商店圖片到不受約束的消費者照片,構成了最大的視覺時尚分析資料庫。 其次,DeepFashion標註了豐富的服裝單品資訊。該資料集中的每張圖像都標有50 個類別、1,000 個描述性屬性、邊界框和服裝地標。第三,DeepFashion 包含超過300,000 個跨姿勢/跨域圖像對。使用DeepFashion 資料庫開發了四個基準,包括屬性預測、消費者到商店的衣服檢索、店內衣服檢索和地標檢測。這些基準的資料和註釋也可以用作以下電腦視覺任務的訓練和測試集,例如衣服檢測、衣服識別和影像檢索。
論文:ViscoNet: Bridging and Harmonizing Visual and Textual Conditioning for ControlNet
COCO(COCO Captions) Dataset
網址:https://cocodataset.org/#download
簡介:COCO Captions是一個字幕資料集,它以場景理解為目標,從日常生活場景中捕獲圖片數據,透過手動生成圖片描述。此資料集包含330K個圖文對。
論文Text to image generation Using Generative Adversarial Networks (GANs)
樣本範例
CUBS-2000-2021 Dataset
網址:https://www.vision.caltech.edu/datasets/cub_200_2011/
相關數據:https://www.vision.caltech.edu/datasets/
簡介:此資料集由加州理工學院在2010年提出的細粒度資料集,也是目前細粒度分類辨識研究的基準影像資料集。該資料集共有11788張鳥類圖像,包含200類鳥類子類,其中訓練資料集有5994張圖像,測試集有5794張圖像,每張圖像均提供了圖像類標記訊息,圖像中鳥的bounding box,鳥的關鍵part訊息,以及鳥類的屬性訊息。
論文Text to image generation Using Generative Adversarial Networks (GANs)
樣本範例
102 Category Flower Dataset
網址:https://www.robots.ox.ac.uk/~vgg/data/flowers/102/
簡介:我們建立了一個102 個類別的資料集,由102 個花卉類別組成。這些花被選為英國常見的花。每個類別由40 到258 張圖像組成。
樣本範例
參考:https://blog.csdn.net/air__heaven/article/details/136141343
下載好圖片資料集後,其次需要下載對應的文字資料集,同樣使用Google雲端硬碟下載:https://drive.google.com/file/d/1G4QRcRZ_s57giew6wgnxemwWRDb-3h5P/view
Flickr8k_dataset
Flickr8k_Dataset.zip https://github.com/jbrownlee/Datasets/releases/download/Flickr8k/Flickr8k_Dataset.zip Flickr8k_text.zip https://github.com/jbrownlee/Datasets/releases/download/Flickr8k/Flickr8k_text.zip
Flickr30k_dataset用於圖像字幕的Flick 30k 資料集
網址:https://www.kaggle.com/datasets/adityajn105/flickr30k
簡介:用於基於句子的圖像描述和搜尋的新基準集合,由30,000 張圖像組成,每張圖像都配有五個不同的標題,這些標題提供了對顯著實體和事件的清晰描述。 ……這些圖像是從六個不同的Flickr 群組中選出的,往往不包含任何知名人物或地點,而是手動選擇來描繪各種場景和情況
網址:https://www.robots.ox.ac.uk/~vgg/data/flowers/102/
簡介:用於基於句子的圖像描述和搜尋的新基準集合,由8,000 張圖像組成,每張圖像都配有五個不同的標題,這些標題提供了對顯著實體和事件的清晰描述。這些圖像是從六個不同的Flickr 群組中選出的,往往不包含任何知名人物或地點,而是手動選擇來描繪各種場景和情況
論文:Caption to Image generation using Deep Residual Generative Adversarial Networks [DR-GAN]
Nouns Dataset自動加入標題的名詞資料集卡
網址:https://huggingface.co/datasets/m1guelpf/nouns
簡介:用於訓練名詞文字到圖像模型的資料集,根據名詞的屬性、顏色和項目自動產生名詞的標題。對於每一行,資料集包含image 和text 鍵。 image 是不同大小的PIL jpeg, text 是隨附的文字標題。僅提供火車分班。
樣本範例
OxfordTVG-HIC Dataset大規模幽默圖像文字資料集
網址:https://github.com/runjiali-rl/Oxford_HIC?tab=readme-ov-file
簡介:這是一個用於幽默生成和理解的大型資料集。幽默是一種抽象的、主觀的、依賴情境的認知結構,涉及多種認知因素,使其生成和解釋成為一項具有挑戰性的任務。 Oxford HIC 提供了大約290 萬個帶有幽默分數的圖像文字對,以訓練通用的幽默字幕模型。與現有的字幕資料集相反,Oxford HIC 具有廣泛的情感和語義多樣性,導致脫離上下文的範例特別有利於產生幽默。
樣本範例
Multi-Modal-CelebA-HQ大規模人臉影像文字資料集
網址:https://github.com/IIGROUP/MM-CelebA-HQ-Dataset
簡介:Multi-Modal-CelebA-HQ (MM-CelebA-HQ) 是一個大規模人臉影像資料集,其中有30k 高解析度人臉影像,是按照CelebA-HQ 從CelebA 資料集中選擇的。資料集中的每個圖像都附有語義掩模、草圖、描述性文字和具有透明背景的圖像。 Multi-Modal-CelebA-HQ 可用於訓練和評估一系列任務的演算法,包括文字到圖像生成、文字引導圖像操作、草圖到圖像生成、圖像字幕和視覺問答。該資料集被引入並在TediGAN 中使用。
樣本範例
Multimodal3DIdent:從可控地面真實因素產生的影像/文字對的多模態資料集
網址:https://zenodo.org/records/7678231
簡介:ICLR 2023 上發表的《多模態對比學習的可識別性結果》一文中介紹了用於生成Multimodal3DIdent 資料集的官方程式碼。此資料集提供了可識別性基準,其中包含從可控地面真實因素產生的圖像/文字對,其中一些在圖像和文字模態之間共享,如以下範例所示。
論文:Identifiability Results for Multimodal Contrastive Learning