制御可能なテキストから画像への生成データセット
ノア-悟空データセット
アドレス: https://wukong-dataset.github.io/wukong-dataset/download.html
はじめに: Noah-Wukong データセットは、大規模なマルチモーダルな中国のデータセットです。このデータセットには 1 億の <image, text> ペアが含まれています。
ゼロ: トピック主導の生成のためのテキストから画像への拡散モデルの微調整
事前トレーニング データセット2,300 万のデータセット (ゼロ コーパス)。ゼロ コーパスは検索エンジンから収集され、ユーザーのクリックスルー率に基づいて 50 億の画像とテキストのペアからフィルタリングされた画像と対応するテキストの説明が含まれています。 230 万のデータセット (Zero-Corpus-Sub)。 null コーパスのサブデータセット。ゼロ コーパスで VLP モデルをトレーニングするには、大量の GPU リソースが必要になる場合があるため、研究目的で 10% の画像とテキストのペアを含むサブデータセットも提供されます。
下流のデータセット
ICM は、画像とテキストの照合タスク用に設計されています。これには、200,000 の肯定的な例と 200,000 の否定的な例を含む、400,000 の画像とテキストのペアが含まれています。
IQM は、画像とテキストのマッチング タスクに使用されるデータセットでもあります。 ICM とは異なり、詳細な説明テキストではなく検索クエリを使用します。同様に、IQM には 200,000 件の陽性ケースと 200,000 件の陰性ケースが含まれています。
ICR は 200,000 の画像とテキストのペアを収集しました。これには、画像からテキストへの取得タスクとテキストから画像への取得タスクが含まれます。
IQR IQR は、画像テキスト検索タスク用にも提案されています。 IQM と同様に、200,000 のクエリと対応する画像を、注釈付きの画像とクエリのペアとしてランダムに選択します。
Flickr30k-CNA 私たちはプロの英語・中国語言語学者を集めて、すべての Flickr30k データを注意深く再翻訳し、すべての文を注意深くチェックしました。このデータセットの翻訳には、Beijing Magic Data Technology Co., Ltd. が貢献しました。
アドレス:https://zero.so.com/download.html
はじめに: Zero は、Zero-Corpus と呼ばれる 2 つの事前トレーニング データセットと 5 つのダウンストリーム データセットで構成される大規模な中国のクロスモーダル ベンチマークです。
Flickr 30k データセット
アドレス: https://shannon.cs.illinois.edu/DenotationGraph/data/index.html
はじめに: Flickr 30k データセットは、Flickr から取得した画像で構成されています。
ビジュアルゲノムデータセット
アドレス: http://visualgenome.org/
はじめに: Visual Genome は、2016 年に Li Feifei によってリリースされた、画像と質問と回答のデータを含む大規模な画像意味理解データ セットです。注釈は高密度であり、セマンティクスは多様です。このデータセットには 500 万個の画像とテキストのペアが含まれています。
概念的キャプション (CC) データセット
アドレス: https://ai.google.com/research/ConceptualCaptions/download
はじめに: Conceptual Captions (CC) は、画像 URL や字幕を含む、人間以外の注釈が付けられたマルチモーダル データです。対応する字幕の説明は、Web サイトの alt-text 属性からフィルタリングされます。 CC データセットは、データ量の違いにより、CC3M (約 330 万の画像とテキストのペア) と CC12M (約 1,200 万の画像とテキストのペア) の 2 つのバージョンに分かれています。
YFCC100M データセット
アドレス: http://projects.dfki.uni-kl.de/yfcc100m/
はじめに: YFCC100M データベースは、2014 年以来 Yahoo Flickr に基づいた画像データベースです。このデータベースは、2004 年から 2014 年の間に生成された 1 億件のメディア データで構成されており、その中には 9,920 万件の写真データと 80 万件のビデオ データが含まれます。 YFCC100M データセットは、データベースに基づいてテキスト データ ドキュメントを確立します。ドキュメント内の各行は、写真またはビデオのメタデータの一部です。
ALT200M データセット
住所:なし
[はじめに]: ALT200M は、記述タスクにおけるスケーリング傾向の特性を研究するために Microsoft チームによって構築された大規模な画像テキスト データセットです。このデータセットには 2 億個の画像とテキストのペアが含まれています。対応するテキストの説明は、Web サイトの alt-text 属性からフィルタリングされます。 (プライベート データセット、データセット リンクなし)
LAION-400M データセット
アドレス: https://laion.ai/blog/laion-400-open-dataset/
はじめに: LAION-400M は、CommonCrwal を通じて 2014 年から 2021 年までの Web ページからテキストと画像を取得し、CLIP を使用して画像とテキストの埋め込み類似度が 0.3 未満の画像とテキストのペアをフィルタリングして除外し、最終的に 4 億の画像とテキストのペアを保持します。ただし、LAION-400M には不快な画像が多数含まれており、テキストと画像の生成タスクに大きな影響を与えます。多くの人がこのデータセットを使用してポルノ画像を生成し、悪影響を及ぼします。したがって、より大規模でクリーンなデータセットが要件となります。
LAION-5B データセット
アドレス:https://laion.ai/blog/laion-5b/
はじめに: LAION-5B は、現在知られているオープンソースとしては最大のマルチモーダル データセットです。 CommonCrawl を通じてテキストと画像を取得し、CLIP を使用して画像とテキストの埋め込み類似度が 0.28 未満の画像とテキストのペアを除外し、最終的に 50 億の画像とテキストのペアを保持します。このデータセットには、英語で 23 億 2000 万、その他 100 以上の言語で 22 億 6000 万、未知の言語で 12 億 7000 万の記述が含まれています。
Wikipedia ベースの画像テキスト (WIT) データセット Wikipedia ベースの画像テキスト (WIT) データセット
アドレス: https://github.com/google-research-datasets/wit/blob/main/DATA.md
はじめに: WIT (Wikipedia-based Image Text) データセットは、100 以上の言語にわたる 1,100 万を超える一意の画像を含む 3,700 万を超える画像テキスト セットを含む大規模なマルチモーダル多言語データセットです。 WIT は 10 個の tsv ファイル (zip 形式) のセットとして提供されます。データセットの合計サイズは約 25GB です。これはトレーニング データセット全体です。すぐに始めたい場合は、データの約 10% を提供し、約 350 万以上の画像テキストの例が含まれる約 2.5 GB のファイルのいずれかを選択してください。 検証セットとテスト セット (それぞれ 5 ファイル) も含まれています。
LAION-5B データセット
アドレス:https://laion.ai/blog/laion-5b/
はじめに: LAION-5B は、現在知られているオープンソースとしては最大のマルチモーダル データセットです。 CommonCrawl を通じてテキストと画像を取得し、CLIP を使用して画像とテキストの埋め込み類似度が 0.28 未満の画像とテキストのペアを除外し、最終的に 50 億の画像とテキストのペアを保持します。このデータセットには、英語で 23 億 2000 万、その他 100 以上の言語で 22 億 6000 万、未知の言語で 12 億 7000 万の記述が含まれています。
TaiSu (TaiSu - 10 億レベルの大規模中国語ビジュアル言語事前トレーニング データセット)
アドレス:https://github.com/ksOAn6g5/TaiSu
はじめに: TaiSu: 1 億 6,600 万の大規模な高品質中国語ビジュアル言語事前トレーニング データ セット
COYO-700M: 大規模な画像とテキストのペア データセット
アドレス:https://huggingface.co/datasets/kakaobrain/coyo-700m
はじめに: COYO-700M は、7 億 4,700 万個の画像とテキストのペアと、さまざまなモデルのトレーニングにおける使いやすさを向上させる他の多くのメタ属性を含む大規模なデータセットです。私たちのデータセットは、以前の視覚的および言語的データセットと同様の戦略に従い、HTML ドキュメント内の多くの有益な代替テキストとそれに関連する画像のペアを収集します。 COYO は、他の同様のデータセットを補完する、人気のある大規模ベース モデルのトレーニングに使用されると予想されます。
サンプル例
WIT: Wikipedia に基づく画像テキスト データセット
アドレス: https://github.com/google-research-datasets/wit
はじめに: Wikipedia ベースの Image to Text (WIT) データセットは、大規模なマルチモーダル、多言語データセットです。 WIT は、108 の Wikipedia 言語にわたる 1,150 万の一意の画像を含む、3,760 万のエンティティが豊富な画像テキストのサンプルの厳選されたセットで構成されています。そのサイズにより、WIT をマルチモーダル機械学習モデルの事前トレーニング データセットとして使用できます。
論文 WIT: マルチモーダル多言語機械学習のためのウィキペディアベースの画像テキスト データセット
サンプル例
拡散DB
アドレス: https://huggingface.co/datasets/poloclub/diffusiondb
はじめに: DiffusionDB は、最初の大規模なテキストから画像へのプロンプト データセットです。これには、実際のユーザー指定のキューとハイパーパラメーターを使用した安定した拡散によって生成された 1,400 万枚の画像が含まれています。この人間主導のデータセットの前例のない規模と多様性は、キューと生成モデルの間の相互作用の理解、ディープフェイクの検出、およびユーザーがこれらのモデルをより簡単に使用できるようにする人間とコンピューターの対話ツールの設計に刺激的な研究の機会を提供します。 DiffusionDB 2M 内の 200 万個の画像は 2,000 個のフォルダーに分割されており、各フォルダーには 1,000 個の画像と、1,000 個の画像をキューおよびハイパーパラメーターにリンクする JSON ファイルが含まれています。同様に、DiffusionDB Large 内の 1,400 万の画像は 14,000 のフォルダーに分割されます。
Paper DiffusionDB: テキストから画像への生成モデルのための大規模なプロンプト ギャラリー データセット
サンプル例
DreamBooth: トピック主導の生成のためのテキストから画像への拡散モデルの微調整
アドレス: https://github.com/google/dreambooth
はじめに: このデータセットには、15 の異なるカテゴリの 30 の被験者が含まれています。そのうち 9 匹は生きた対象 (犬と猫)、21 匹は物体でした。このデータセットには、被験者ごとに可変数の画像 (4 ~ 6) が含まれています。
COCO-Stuffデータセット
# Get this repo git clone https://github.com/nightrome/cocostuff.git cd cocostuff # Download everything wget --directory-prefix=downloads http://images.cocodataset.org/zips/train2017.zip wget --directory-prefix=downloads http://images.cocodataset.org/zips/val2017.zip wget --directory-prefix=downloads http://calvin.inf.ed.ac.uk/wp-content/uploads/data/cocostuffdataset/stuffthingmaps_trainval2017.zip # Unpack everything mkdir -p dataset/images mkdir -p dataset/annotations unzip downloads/train2017.zip -d dataset/images/ unzip downloads/val2017.zip -d dataset/images/ unzip downloads/stuffthingmaps_trainval2017.zip -d dataset/annotations/
アドレス: https://github.com/nightrome/cocostuff
はじめに: COCO-Stuff は、人気のある COCO [2] データセットの 164K 画像すべてをピクセルレベルのコンテンツ注釈で強化します。これらの注釈は、セマンティック セグメンテーション、オブジェクト検出、画像キャプションなどのシーン理解タスクに使用できます。
サンプル例
コマンドラインのダウンロード
* Pick-a-Pic: テキストから画像への生成のためのユーザー設定のオープン データセット
アドレス: https://huggingface.co/datasets/yuvalkirstain/pickapic_v1
はじめに: Pick-a-Pic データセットは、Pick-a-Pic Web アプリケーションを通じて収集され、モデル生成画像に対する人間の好みの例が 500,000 件以上含まれています。実際の画像の代わりに URL を含むデータセット (サイズが大幅に小さくなります) は、ここにあります。
コマンドラインダウンロード [国内アクセラレーション]
1. 下载hfd wget https://hf-mirror.com/hfd/hfd.sh chmod a+x hfd.sh 2. 设置环境变量 export HF_ENDPOINT=https://hf-mirror.com 3.1 下载模型 ./hfd.sh gpt2 --tool aria2c -x 4 3.2 下载数据集 ./hfd.sh yuvalkirstain/pickapic_v1 --dataset --tool aria2c -x 4
DeepFashion-マルチモーダル
アドレス: https://drive.google.com/drive/folders/1An2c_ZCkeGmhJg0zUjtZF46vyJgQwIr2
はじめに: このデータセットは、豊富なマルチモーダル アノテーションを備えた大規模で高品質な人体データセットです。これには次の特性があります。 12,701 個の全身人体画像を含む、44,096 個の高解像度人体画像が含まれています。全身画像ごとに、24 カテゴリの身体解析ラベルに手動で注釈を付けます。全身画像ごとに、重要なポイントに手動で注釈を付けます。各画像には、衣服の形状とテクスチャの属性が手動で注釈として付けられます。各画像にテキストによる説明を提供します。 DeepFashion-MultiModal は、テキスト駆動の人物画像生成、テキストガイドによる人物画像の操作、スケルトンガイドによる人物画像の生成、人物の姿勢推定、人物画像の字幕、人物画像のマルチモーダル学習、人物の属性認識、および人間に適用できます。ボディ解析予測など、このデータセットは Text2Human で提供されます。
論文: Text2Human: テキスト駆動の制御可能な人間の画像の生成
ディープファッション
アドレス: https://mmlab.ie.cuhk.edu.hk/projects/DeepFashion.html
はじめに: このデータセットは、いくつかの魅力的な特性を備えた大規模な衣料品データベースです。 まず、DeepFashion には、ポーズをとった店舗画像から制約のない消費者の写真に至るまで、800,000 を超える多様なファッション画像が含まれており、最大の視覚的ファッション分析データベースを構成しています。 次に、DeepFashion は豊富な衣料品情報に注釈を付けます。このデータセット内の各画像には、50 のカテゴリ、1,000 の記述属性、境界ボックス、および衣服のランドマークの注釈が付けられています。第三に、DeepFashion には 300,000 を超えるクロスポーズ/クロスドメイン画像のペアが含まれています。 DeepFashion データベースを使用して、属性予測、消費者から店舗までの衣類の検索、店内の衣類の検索、ランドマークの検出を含む 4 つのベンチマークが開発されました。これらのベンチマークからのデータと注釈は、衣服の検出、衣服の認識、画像検索などのコンピューター ビジョン タスクのトレーニング セットやテスト セットとしても使用できます。
論文: ViscoNet: ControlNet のビジュアルおよびテキストのコンディショニングの橋渡しと調和
COCO (COCO キャプション) データセット
アドレス: https://cocodataset.org/#download
はじめに: COCO Captions は、シーンの理解を目的とし、日常生活のシーンから画像データをキャプチャし、画像の説明を手動で生成するキャプション データセットです。このデータセットには 330K の画像とテキストのペアが含まれています。
敵対的生成ネットワーク (GAN) を使用した PaperText から画像への生成
サンプル例
CUBS-2000-2021 データセット
アドレス: https://www.vision.caltech.edu/datasets/cub_200_2011/
関連データ: https://www.vision.caltech.edu/datasets/
はじめに: このデータセットは、2010 年にカリフォルニア工科大学によって提案された詳細なデータセットです。また、現在の詳細な分類および認識研究のベンチマーク画像データセットでもあります。データ セットには、200 の鳥のサブカテゴリを含む合計 11,788 の鳥の画像があり、トレーニング データ セットには 5,994 の画像があり、各画像には画像クラスのラベル情報と画像内の鳥の境界が含まれています。鳥の主要部位情報と鳥の属性情報。
敵対的生成ネットワーク (GAN) を使用した PaperText から画像への生成
サンプル例
102 カテゴリ花データセット
アドレス: https://www.robots.ox.ac.uk/~vgg/data/flowers/102/
はじめに: 102 個の花のカテゴリーから構成される 102 カテゴリーのデータセットを作成しました。この花はイギリスで一般的な花として選ばれました。各カテゴリは 40 ~ 258 枚の画像で構成されます。
サンプル例
参考:https://blog.csdn.net/air__heaven/article/details/136141343
画像データ セットをダウンロードした後、対応するテキスト データ セットもダウンロードする必要があります: https://drive.google.com/file/d/1G4QRcRZ_s57giew6wgnxemwWRDb-3h5P/view
Flickr8k_dataset
Flickr8k_Dataset.zip https://github.com/jbrownlee/Datasets/releases/download/Flickr8k/Flickr8k_Dataset.zip Flickr8k_text.zip https://github.com/jbrownlee/Datasets/releases/download/Flickr8k/Flickr8k_text.zip
Flickr30k_dataset画像キャプション用の Flick 30k データセット
アドレス: https://www.kaggle.com/datasets/adityajn105/flickr30k
はじめに: 文ベースの画像説明と検索のための新しいベンチマーク コレクション。30,000 枚の画像で構成されており、各画像には、顕著なエンティティやイベントを明確に説明する 5 つの異なるキャプションが付いています。 …これらの画像は 6 つの異なる Flickr グループから選択されており、多くの場合、有名な人物や場所は含まれていませんが、さまざまなシーンや状況を描写するために手作業で選択されています。
アドレス: https://www.robots.ox.ac.uk/~vgg/data/flowers/102/
はじめに: 文章ベースの画像の説明と検索のための新しいベンチマーク コレクション。8,000 枚の画像で構成されており、各画像には、顕著なエンティティやイベントを明確に説明する 5 つの異なるキャプションが付いています。画像は 6 つの異なる Flickr グループから選択されたもので、よく知られた人物や場所は含まれない傾向がありますが、さまざまなシーンや状況を描写するために手作業で選択されました。
論文: Deep Residual Generative Adversarial Networks [DR-GAN] を使用した画像生成のキャプション
名詞データセットはタイトルを名詞データセット カードに自動的に追加します
アドレス: https://huggingface.co/datasets/m1guelpf/nouns
概要: 名詞の属性、色、アイテムに基づいて名詞のタイトルを自動的に生成する、名詞のテキストから画像へのモデルをトレーニングするためのデータセット。データ セットには、行ごとに画像キーとテキスト キーが含まれます。画像はさまざまなサイズの PIL jpeg で、テキストは付随するテキスト キャプションです。列車分割のみ可能です。
サンプル例
OxfordTVG-HIC データセット大規模ユーモア画像テキスト データセット
アドレス: https://github.com/runjiali-rl/Oxford_HIC?tab=readme-ov-file
はじめに: これはユーモアの生成と理解のための大規模なデータセットです。ユーモアは抽象的、主観的、文脈依存の認知構造であり、複数の認知要素が関与するため、その生成と解釈は困難な作業となります。オックスフォード HIC は、一般的なユーモア キャプション モデルをトレーニングするために、約 290 万の画像とテキストのペアとユーモア スコアを提供します。既存のキャプション データセットとは対照的に、オックスフォード HIC は幅広い感情と意味の多様性を備えているため、文脈から外れた例はユーモアを生み出すのに特に有益です。
サンプル例
Multi-Modal-CelebA-HQ大規模な顔画像テキスト データセット
アドレス: https://github.com/IIGROUP/MM-CelebA-HQ-Dataset
はじめに: Multi-Modal-CelebA-HQ (MM-CelebA-HQ) は、CelebA-HQ に従って CelebA データセットから選択された 30,000 の高解像度の顔画像を含む大規模な顔画像データセットです。データセット内の各画像には、セマンティック マスク、スケッチ、説明テキスト、および背景が透明な画像が付属しています。 Multi-Modal-CelebA-HQ を使用すると、テキストから画像への生成、テキストによる画像操作、スケッチから画像への生成、画像キャプション、視覚的な質問応答など、さまざまなタスクのアルゴリズムをトレーニングおよび評価できます。このデータセットは TediGAN で導入され、使用されています。
サンプル例
Multimodal3DIdent: 制御可能なグラウンド トゥルース ファクターから生成された画像とテキストのペアのマルチモーダル データセット
アドレス:https://zenodo.org/records/7678231
はじめに: Multimodal3DIdent データセットを生成するための公式コードは、ICLR 2023 で公開された記事「マルチモーダル対照学習の識別可能性結果」で紹介されています。このデータセットは、制御可能なグラウンド トゥルース ファクターから生成された画像とテキストのペアを含む認識性ベンチマークを提供します。次の例に示すように、その一部は画像モダリティとテキスト モダリティ間で共有されます。
論文: マルチモーダル対照学習の識別可能性の結果