제어 가능한 텍스트-이미지 생성 데이터 세트
Noah-Wukong 데이터세트
주소: https://wukong-dataset.github.io/wukong-dataset/download.html
소개: Noah-Wukong 데이터세트는 대규모 다중 모드 중국어 데이터세트입니다. 이 데이터세트에는 1억 개의 <이미지, 텍스트> 쌍이 포함되어 있습니다.
Zero: 주제 중심 생성을 위한 텍스트-이미지 확산 모델 미세 조정
사전 학습 데이터 세트 2,300만 개(코퍼스 없음). 제로 코퍼스는 검색 엔진에서 수집되며 사용자 클릭률을 기준으로 50억 개의 이미지-텍스트 쌍에서 필터링된 이미지와 해당 텍스트 설명을 포함합니다. 230만 개의 데이터 세트(Zero-Corpus-Sub). 널 코퍼스의 하위 데이터세트입니다. 제로 코퍼스에서 VLP 모델을 훈련하려면 많은 GPU 리소스가 필요할 수 있으므로 10% 이미지-텍스트 쌍을 포함하는 하위 데이터 세트도 연구 목적으로 제공됩니다.
다운스트림 데이터세트
ICM은 이미지-텍스트 일치 작업을 위해 설계되었습니다. 여기에는 200,000개의 긍정적인 예와 200,000개의 부정적인 예를 포함하여 400,000개의 이미지-텍스트 쌍이 포함되어 있습니다.
IQM은 이미지-텍스트 매칭 작업에 사용되는 데이터세트이기도 합니다. ICM과 달리 자세한 설명 텍스트보다는 검색어를 사용합니다. 마찬가지로 IQM에는 200,000개의 긍정적인 사례와 200,000개의 부정적인 사례가 포함됩니다.
ICR에서는 200,000개의 이미지-텍스트 쌍을 수집했습니다. 여기에는 이미지에서 텍스트로 검색 및 텍스트에서 이미지로 검색 작업이 포함됩니다.
IQR IQR은 이미지 텍스트 검색 작업에도 제안되었습니다. 우리는 IQM과 유사한 주석이 달린 이미지-쿼리 쌍으로 200,000개의 쿼리와 해당 이미지를 무작위로 선택합니다.
Flickr30k-CNA 우리는 전문 영중 언어학자들을 모아 모든 Flickr30k 데이터를 신중하게 재번역하고 모든 문장을 주의 깊게 확인합니다. Beijing Magic Data Technology Co., Ltd.는 이 데이터 세트의 번역에 기여했습니다.
주소: https://zero.so.com/download.html
소개: Zero는 Zero-Corpus라는 사전 훈련 데이터 세트 2개와 다운스트림 데이터 세트 5개로 구성된 대규모 중국 크로스 모달 벤치마크입니다.
Flickr 30k 데이터세트
주소: https://shannon.cs.illinois.edu/DenotationGraph/data/index.html
소개: Flickr 30k 데이터 세트는 Flickr에서 얻은 이미지로 구성됩니다.
시각적 게놈 데이터세트
주소: http://visualgenome.org/
소개: Visual Genome은 Li Feifei가 2016년에 발표한 이미지 및 질문 및 답변 데이터를 포함하는 대규모 이미지 의미 이해 데이터 세트입니다. 주석은 조밀하고 의미는 다양합니다. 이 데이터 세트에는 500만 개의 이미지-텍스트 쌍이 포함되어 있습니다.
CC(개념 캡션) 데이터 세트
주소: https://ai.google.com/research/ConceptualCaptions/download
소개: CC(개념 캡션)는 이미지 URL 및 자막을 포함하여 사람이 주석을 달지 않은 다중 모드 데이터입니다. 해당 자막 설명은 웹사이트의 대체 텍스트 속성에서 필터링됩니다. CC 데이터 세트는 데이터 양이 다르기 때문에 CC3M(약 330만 개의 이미지-텍스트 쌍)과 CC12M(약 1,200만 개의 이미지-텍스트 쌍)의 두 가지 버전으로 나뉩니다.
YFCC100M 데이터세트
주소: http://projects.dfki.uni-kl.de/yfcc100m/
소개: YFCC100M 데이터베이스는 2014년부터 Yahoo Flickr를 기반으로 한 이미지 데이터베이스입니다. 데이터베이스는 2004년부터 2014년까지 생성된 미디어 데이터 1억개(사진 데이터 9920만개, 동영상 데이터 80만개)로 구성됐다. YFCC100M 데이터 세트는 데이터베이스를 기반으로 텍스트 데이터 문서를 구축합니다. 문서의 각 줄은 사진이나 비디오의 메타데이터입니다.
ALT200M 데이터세트
주소: 없음
[소개]: ALT200M은 Microsoft 팀이 설명 작업의 스케일링 추세 특성을 연구하기 위해 구축한 대규모 이미지-텍스트 데이터 세트입니다. 이 데이터 세트에는 2억 개의 이미지-텍스트 쌍이 포함되어 있습니다. 해당 텍스트 설명은 웹사이트의 대체 텍스트 속성에서 필터링됩니다. (비공개 데이터세트, 데이터세트 링크 없음)
LAION-400M 데이터세트
주소: https://laion.ai/blog/laion-400-open-dataset/
소개: LAION-400M은 CommonCrwal을 통해 2014년부터 2021년까지 웹 페이지에서 텍스트와 이미지를 얻은 다음 CLIP을 사용하여 이미지와 텍스트 임베딩 유사성이 0.3보다 낮은 이미지-텍스트 쌍을 필터링하여 궁극적으로 4억 개의 이미지-텍스트 쌍을 유지합니다. 그러나 LAION-400M에는 불편한 사진이 다수 포함되어 있어 텍스트 및 이미지 생성 작업에 더 큰 영향을 미칩니다. 많은 사람들이 이 데이터 세트를 사용하여 포르노 이미지를 생성하여 나쁜 영향을 미칩니다. 따라서 더 크고 깨끗한 데이터 세트가 요구됩니다.
LAION-5B 데이터세트
주소: https://laion.ai/blog/laion-5b/
소개: LAION-5B는 현재 알려진 오픈 소스 중 가장 큰 다중 모드 데이터 세트입니다. CommonCrawl을 통해 텍스트와 이미지를 얻은 다음 CLIP을 사용하여 이미지와 텍스트 임베딩 유사성이 0.28보다 낮은 이미지-텍스트 쌍을 필터링하여 궁극적으로 50억 개의 이미지-텍스트 쌍을 유지합니다. 데이터 세트에는 영어로 된 23억 2천만 개의 설명, 100개 이상의 기타 언어로 된 22억 6천만 개의 설명, 12억 7천만 개의 알 수 없는 언어가 포함되어 있습니다.
위키피디아 기반 이미지 텍스트(WIT) 데이터세트 위키피디아 기반 이미지 텍스트(WIT) 데이터세트
주소: https://github.com/google-research-datasets/wit/blob/main/DATA.md
소개: WIT(Wikipedia 기반 이미지 텍스트) 데이터 세트는 100개 이상의 언어에 걸쳐 1,100만 개가 넘는 고유 이미지가 포함된 3,700만 개 이상의 이미지 텍스트 세트를 포함하는 대규모 다중 모드 다중 언어 데이터 세트입니다. 우리는 WIT를 10개의 tsv 파일(압축) 세트로 제공합니다. 총 데이터 세트 크기는 약 25GB입니다. 이것은 전체 훈련 데이터 세트입니다. 빠르게 시작하려면 ~10%의 데이터를 제공하고 ~350만 개 이상의 이미지 텍스트 예제 세트를 포함하는 ~2.5GB 파일 중 하나를 선택하세요. 또한 검증 및 테스트 세트(각각 5개 파일)도 포함됩니다.
LAION-5B 데이터세트
주소: https://laion.ai/blog/laion-5b/
소개: LAION-5B는 현재 알려진 오픈 소스 중 가장 큰 다중 모드 데이터 세트입니다. CommonCrawl을 통해 텍스트와 이미지를 얻은 다음 CLIP을 사용하여 이미지와 텍스트 임베딩 유사성이 0.28보다 낮은 이미지-텍스트 쌍을 필터링하여 궁극적으로 50억 개의 이미지-텍스트 쌍을 유지합니다. 데이터 세트에는 영어로 된 23억 2천만 개의 설명, 100개 이상의 기타 언어로 된 22억 6천만 개의 설명, 12억 7천만 개의 알 수 없는 언어가 포함되어 있습니다.
TaiSu(TaiSu-10억 수준의 대규모 중국어 시각 언어 사전 학습 데이터 세트)
주소: https://github.com/ksOAn6g5/TaiSu
소개: TaiSu: 166M 대규모 고품질 중국어 시각 언어 사전 학습 데이터 세트
COYO-700M: 대규모 이미지-텍스트 쌍 데이터세트
주소: https://huggingface.co/datasets/kakaobrain/coyo-700m
소개: COYO-700M은 다양한 모델 학습의 유용성을 향상시키기 위해 747M 이미지-텍스트 쌍과 기타 많은 메타 속성을 포함하는 대규모 데이터 세트입니다. 우리의 데이터 세트는 이전의 시각적 및 언어적 데이터 세트와 유사한 전략을 따르며 HTML 문서에서 많은 정보를 제공하는 대체 텍스트와 관련 이미지 쌍을 수집합니다. 우리는 COYO가 인기 있는 대규모 기본 모델을 훈련하고 다른 유사한 데이터세트를 보완하는 데 사용될 것으로 기대합니다.
샘플 예
WIT: Wikipedia를 기반으로 한 이미지 텍스트 데이터세트
주소: https://github.com/google-research-datasets/wit
소개: Wikipedia 기반 WIT(Image to Text) 데이터 세트는 대규모 다중 모드 다중 언어 데이터 세트입니다. WIT는 108개 Wikipedia 언어에 걸쳐 1,150만 개의 고유한 이미지를 포함하는 3,760만 개의 엔터티가 풍부한 이미지 텍스트 예제로 구성된 세트로 구성됩니다. 그 크기 덕분에 WIT는 다중 모드 기계 학습 모델을 위한 사전 훈련 데이터 세트로 사용될 수 있습니다.
논문 WIT: 다중 모드 다국어 기계 학습을 위한 Wikipedia 기반 이미지 텍스트 데이터 세트
샘플 예
확산DB
주소: https://huggingface.co/datasets/poloclub/diffusiondb
소개: DiffusionDB는 최초의 대규모 텍스트-이미지 프롬프트 데이터 세트입니다. 여기에는 실제 사용자가 지정한 큐와 하이퍼파라미터를 사용하여 안정적인 확산을 통해 생성된 1,400만 개의 이미지가 포함되어 있습니다. 인간이 주도하는 이 데이터 세트의 전례 없는 규모와 다양성은 단서와 생성 모델 간의 상호 작용을 이해하고, 딥페이크를 감지하고, 사용자가 이러한 모델을 보다 쉽게 사용할 수 있도록 돕는 인간-컴퓨터 상호 작용 도구를 설계할 수 있는 흥미로운 연구 기회를 제공합니다. DiffusionDB 2M에 있는 200만 개의 이미지는 2,000개의 폴더로 나누어져 있으며, 각 폴더에는 1,000개의 이미지와 1,000개의 이미지를 신호 및 하이퍼파라미터에 연결하는 JSON 파일이 포함되어 있습니다. 마찬가지로 DiffusionDB Large에 있는 1,400만 개의 이미지는 14,000개의 폴더로 나누어져 있습니다.
Paper DiffusionDB: 텍스트-이미지 생성 모델을 위한 대규모 프롬프트 갤러리 데이터세트
샘플 예
DreamBooth: 주제 중심 생성을 위한 텍스트-이미지 확산 모델 미세 조정
주소: https://github.com/google/dreambooth
소개: 이 데이터 세트에는 15개 카테고리의 30개 주제가 포함되어 있습니다. 그 중 9마리는 살아있는 개체(개와 고양이)였고 21마리는 물체였습니다. 이 데이터 세트에는 주제당 다양한 수의 이미지(4-6)가 포함되어 있습니다.
COCO-Stuff 데이터세트
# Get this repo git clone https://github.com/nightrome/cocostuff.git cd cocostuff # Download everything wget --directory-prefix=downloads http://images.cocodataset.org/zips/train2017.zip wget --directory-prefix=downloads http://images.cocodataset.org/zips/val2017.zip wget --directory-prefix=downloads http://calvin.inf.ed.ac.uk/wp-content/uploads/data/cocostuffdataset/stuffthingmaps_trainval2017.zip # Unpack everything mkdir -p dataset/images mkdir -p dataset/annotations unzip downloads/train2017.zip -d dataset/images/ unzip downloads/val2017.zip -d dataset/images/ unzip downloads/stuffthingmaps_trainval2017.zip -d dataset/annotations/
주소: https://github.com/nightrome/cocostuff
소개: COCO-Stuff는 인기 있는 COCO [2] 데이터세트의 모든 164K 이미지를 픽셀 수준 콘텐츠 주석으로 향상합니다. 이러한 주석은 의미론적 분할, 객체 감지 및 이미지 캡션과 같은 장면 이해 작업에 사용될 수 있습니다.
샘플 예
명령줄 다운로드
* Pick-a-Pic: 텍스트-이미지 생성을 위한 사용자 기본 설정의 공개 데이터세트
주소: https://huggingface.co/datasets/yuvalkirstain/pickapic_v1
소개: Pick-a-Pic 데이터 세트는 Pick-a-Pic 웹 애플리케이션을 통해 수집되며 모델 생성 이미지에 대한 인간의 선호도에 대한 500,000개 이상의 예가 포함되어 있습니다. 실제 이미지(크기가 훨씬 작음) 대신 URL이 포함된 데이터 세트는 여기에서 찾을 수 있습니다.
명령줄 다운로드 [국내 가속]
1. 下载hfd wget https://hf-mirror.com/hfd/hfd.sh chmod a+x hfd.sh 2. 设置环境变量 export HF_ENDPOINT=https://hf-mirror.com 3.1 下载模型 ./hfd.sh gpt2 --tool aria2c -x 4 3.2 下载数据集 ./hfd.sh yuvalkirstain/pickapic_v1 --dataset --tool aria2c -x 4
DeepFashion-멀티모달
주소: https://drive.google.com/drive/folders/1An2c_ZCkeGmhJg0zUjtZF46vyJgQwIr2
소개: 이 데이터 세트는 풍부한 다중 모드 주석이 포함된 대규모 고품질 인체 데이터 세트입니다. 여기에는 다음과 같은 속성이 있습니다. 전신 인체 이미지 12,701개를 포함하여 고해상도 인체 이미지 44,096개가 포함되어 있습니다. 각 전신 이미지에 대해 24개 카테고리의 신체 분석 라벨을 수동으로 주석을 추가합니다. 각 전신 이미지에 대해 수동으로 핵심 사항에 주석을 추가합니다. 각 이미지에는 의류 모양과 질감의 속성이 수동으로 추가됩니다. 각 이미지에 대한 텍스트 설명을 제공합니다. DeepFashion-MultiModal은 텍스트 기반 인간 이미지 생성, 텍스트 기반 인간 이미지 조작, 골격 기반 인간 이미지 생성, 인간 자세 추정, 인간 이미지 자막, 인간 이미지의 다중 모드 학습, 인간 속성 인식 및 인간에 적용할 수 있습니다. 신체 분석 예측 등, 이 데이터 세트는 Text2Human에 표시됩니다.
논문: Text2Human: 텍스트 기반 제어 가능한 인간 이미지 생성
딥패션
주소: https://mmlab.ie.cuhk.edu.hk/projects/DeepFashion.html
소개: 이 데이터 세트는 몇 가지 매력적인 속성을 가진 대규모 의류 데이터베이스입니다. 첫째, DeepFashion은 포즈를 취한 매장 이미지부터 제약 없는 소비자 사진에 이르기까지 800,000개 이상의 다양한 패션 이미지를 포함하며, 이는 최대 규모의 시각적 패션 분석 데이터베이스를 구성합니다. 둘째, DeepFashion은 풍부한 의류 품목 정보에 주석을 답니다. 이 데이터 세트의 각 이미지에는 50개의 카테고리, 1,000개의 설명 속성, 경계 상자 및 의류 랜드마크가 주석으로 추가되어 있습니다. 셋째, DeepFashion에는 300,000개 이상의 교차 포즈/교차 도메인 이미지 쌍이 포함되어 있습니다. 속성 예측, 소비자-매장 의류 검색, 매장 내 의류 검색 및 랜드마크 감지를 포함하여 DeepFashion 데이터베이스를 사용하여 4가지 벤치마크가 개발되었습니다. 이러한 벤치마크의 데이터와 주석은 의류 감지, 의류 인식, 이미지 검색과 같은 컴퓨터 비전 작업을 위한 교육 및 테스트 세트로도 사용할 수 있습니다.
논문: ViscoNet: ControlNet을 위한 시각적 및 텍스트 컨디셔닝 연결 및 조화
COCO(COCO 캡션) 데이터세트
주소: https://cocodataset.org/#download
소개: COCO Captions는 장면 이해를 목표로 하고, 일상 장면에서 이미지 데이터를 캡처하고, 이미지 설명을 수동으로 생성하는 캡션 데이터세트입니다. 이 데이터세트에는 330,000개의 이미지-텍스트 쌍이 포함되어 있습니다.
GAN(Generative Adversarial Networks)을 사용하여 PaperText에서 이미지 생성까지
샘플 예
CUBS-2000-2021 데이터세트
주소: https://www.vision.caltech.edu/datasets/cub_200_2011/
관련 자료: https://www.vision.caltech.edu/datasets/
소개: 이 데이터세트는 2010년 캘리포니아 공과대학에서 제안한 Fine-grained 데이터세트입니다. 또한 현재의 Fine-grained 분류 및 인식 연구를 위한 벤치마크 이미지 데이터세트이기도 합니다. 데이터 세트에는 200개의 새 하위 범주를 포함하여 총 11,788개의 새 이미지가 있습니다. 훈련 데이터 세트에는 5,994개의 이미지가 있고, 테스트 세트에는 5,794개의 이미지가 있습니다. 각 이미지는 이미지 클래스 레이블 정보와 이미지 상자 내 새의 경계를 제공합니다. 새의 주요 부품 정보, 새의 속성 정보입니다.
GAN(Generative Adversarial Networks)을 사용하여 PaperText에서 이미지 생성까지
샘플 예
102 카테고리 꽃 데이터세트
주소: https://www.robots.ox.ac.uk/~vgg/data/flowers/102/
소개: 우리는 102개의 꽃 카테고리로 구성된 102개 카테고리 데이터세트를 만들었습니다. 그 꽃은 영국에서 흔한 꽃으로 선택되었습니다. 각 카테고리는 40~258개의 이미지로 구성됩니다.
샘플 예
참고 : https://blog.csdn.net/air__heaven/article/details/136141343
이미지 데이터 세트를 다운로드한 후 해당 텍스트 데이터 세트도 다운로드해야 합니다. 또한 다운로드하려면 Google Cloud Disk를 사용하세요: https://drive.google.com/file/d/1G4QRcRZ_s57giew6wgnxemwWRDb-3h5P/view
Flickr8k_dataset
Flickr8k_Dataset.zip https://github.com/jbrownlee/Datasets/releases/download/Flickr8k/Flickr8k_Dataset.zip Flickr8k_text.zip https://github.com/jbrownlee/Datasets/releases/download/Flickr8k/Flickr8k_text.zip
Flickr30k_dataset 이미지 캡션을 위한 Flick 30k 데이터 세트
주소: https://www.kaggle.com/datasets/adityajn105/flickr30k
소개: 문장 기반 이미지 설명 및 검색을 위한 새로운 벤치마크 컬렉션은 30,000개의 이미지로 구성되어 있으며 각 이미지에는 주요 엔터티 및 이벤트에 대한 명확한 설명을 제공하는 5개의 고유한 캡션이 함께 제공됩니다. ...이러한 이미지는 6개의 서로 다른 Flickr 그룹에서 선택되었으며 잘 알려진 사람이나 장소가 포함되어 있지 않은 경우가 많지만 다양한 장면과 상황을 묘사하기 위해 직접 선택했습니다.
주소: https://www.robots.ox.ac.uk/~vgg/data/flowers/102/
소개: 문장 기반 이미지 설명 및 검색을 위한 새로운 벤치마크 컬렉션은 8,000개의 이미지로 구성되어 있으며 각 이미지에는 주요 엔터티 및 이벤트에 대한 명확한 설명을 제공하는 5개의 고유한 캡션이 포함되어 있습니다. 이미지는 6개의 서로 다른 Flickr 그룹에서 선택되었으며 잘 알려진 사람이나 장소를 포함하지 않는 경향이 있지만 다양한 장면과 상황을 묘사하기 위해 직접 선택했습니다.
논문: Deep Residual Generative Adversarial Networks [DR-GAN]을 사용한 이미지 생성에 대한 캡션
명사 데이터세트는 명사 데이터세트 카드에 제목을 자동으로 추가합니다.
주소: https://huggingface.co/datasets/m1guelpf/nouns
소개: 속성, 색상 및 항목을 기반으로 명사의 제목을 자동으로 생성하는 명사 텍스트-이미지 모델을 훈련하기 위한 데이터세트입니다. 각 행에 대해 데이터 세트에는 이미지 및 텍스트 키가 포함됩니다. 이미지는 다양한 크기의 PIL jpeg이며 텍스트는 함께 제공되는 텍스트 캡션입니다. 열차 분할만 가능합니다.
샘플 예
OxfordTVG-HIC 데이터세트 대규모 유머 이미지 텍스트 데이터세트
주소: https://github.com/runjiali-rl/Oxford_HIC?tab=readme-ov-file
소개: 이는 유머 생성 및 이해를 위한 대규모 데이터 세트입니다. 유머는 여러 인지적 요소를 포함하는 추상적이고 주관적이며 상황에 따른 인지적 구조로, 유머의 생성과 해석을 어려운 작업으로 만듭니다. Oxford HIC는 일반적인 유머 캡션 모델을 훈련하기 위해 유머 점수가 포함된 약 290만 개의 이미지-텍스트 쌍을 제공합니다. 기존 캡션 데이터 세트와 달리 Oxford HIC는 광범위한 정서와 의미론적 다양성을 갖추고 있어 상황에 맞지 않는 예시가 유머 생성에 특히 유용합니다.
샘플 예
Multi-Modal-CelebA-HQ 대규모 얼굴 이미지 텍스트 데이터세트
주소: https://github.com/IIGROUP/MM-CelebA-HQ-Dataset
소개: Multi-Modal-CelebA-HQ(MM-CelebA-HQ)는 CelebA-HQ에 따라 CelebA 데이터세트에서 선택된 30k 고해상도 얼굴 이미지를 포함하는 대규모 얼굴 이미지 데이터세트입니다. 데이터세트의 각 이미지에는 의미 마스크, 스케치, 설명 텍스트, 투명한 배경의 이미지가 함께 제공됩니다. Multi-Modal-CelebA-HQ는 텍스트-이미지 생성, 텍스트 안내 이미지 조작, 스케치-이미지 생성, 이미지 캡션 작성 및 시각적 질문 응답을 포함한 다양한 작업에 대한 알고리즘을 훈련하고 평가하는 데 사용할 수 있습니다. 이 데이터 세트는 TediGAN에 도입되어 사용됩니다.
샘플 예
Multimodal3DIdent: 제어 가능한 실측 요인에서 생성된 이미지/텍스트 쌍의 다중 모드 데이터 세트
주소: https://zenodo.org/records/7678231
소개: Multimodal3DIdent 데이터 세트를 생성하기 위한 공식 코드는 ICLR 2023에 게시된 "다중 모드 대조 학습의 식별 가능성 결과" 기사에 소개되어 있습니다. 이 데이터 세트는 다음 예와 같이 제어 가능한 실제 요인에서 생성된 이미지/텍스트 쌍을 포함하는 인식 가능성 벤치마크를 제공하며, 그 중 일부는 이미지와 텍스트 형식 간에 공유됩니다.
논문: 다중 모드 대조 학습에 대한 식별 가능성 결과