Kumpulan Data-Pembuatan-Teks-Terkendali
Kumpulan data pembuatan teks-ke-gambar yang dapat dikontrol
Kumpulan data 2D
1. Kumpulan data pra-pelatihan
Kumpulan Data Nuh-Wukong
- Alamat: https://wukong-dataset.github.io/wukong-dataset/download.html
- Pendahuluan: Kumpulan data Noah-Wukong adalah kumpulan data multimodal Tiongkok berskala besar. Kumpulan data ini berisi 100 juta pasangan .
Zero: Menyempurnakan model difusi teks-ke-gambar untuk pembuatan berdasarkan topik
- Alamat: https://zero.so.com/download.html
- Pendahuluan: Zero adalah tolok ukur lintas modal Tiongkok berskala besar, yang terdiri dari dua kumpulan data pra-pelatihan yang disebut Zero-Corpus dan lima kumpulan data hilir.
- Dataset pra-pelatihan 23 juta dataset (zero corpus). Korpus nol dikumpulkan dari mesin pencari dan berisi gambar serta deskripsi teks terkait, disaring dari 5 miliar pasangan gambar-teks berdasarkan rasio klik-tayang pengguna. 2,3 juta kumpulan data (Zero-Corpus-Sub). Subdataset dari korpus nol. Melatih model VLP pada korpus nol mungkin memerlukan sumber daya GPU yang besar, sehingga subkumpulan data yang berisi 10% pasangan gambar-teks juga disediakan untuk tujuan penelitian.
- Kumpulan data hilir
- ICM dirancang untuk tugas pencocokan gambar-teks. Ini berisi 400.000 pasangan gambar-teks, termasuk 200.000 contoh positif dan 200.000 contoh negatif.
- IQM juga merupakan kumpulan data yang digunakan untuk tugas mencocokkan gambar-teks. Tidak seperti ICM, kami menggunakan permintaan pencarian daripada teks deskripsi rinci. Begitu pula dengan IQM yang memuat 200.000 kasus positif dan 200.000 kasus negatif.
- ICR kami mengumpulkan 200.000 pasangan gambar-teks. Ini berisi tugas pengambilan gambar-ke-teks dan pengambilan teks-ke-gambar.
- IQR IQR juga telah diusulkan untuk tugas pengambilan teks gambar. Kami secara acak memilih 200.000 kueri dan gambar yang sesuai sebagai pasangan kueri gambar beranotasi yang mirip dengan IQM.
- Flickr30k-CNA Kami mengumpulkan ahli bahasa Inggris-Mandarin profesional untuk menerjemahkan ulang semua data Flickr30k dengan cermat dan memeriksa setiap kalimat dengan cermat. Beijing Magic Data Technology Co., Ltd. berkontribusi pada penerjemahan kumpulan data ini.
Kumpulan Data Flickr 30k
- Alamat: https://shannon.cs.illinois.edu/DenotationGraph/data/index.html
- Pendahuluan: Kumpulan data Flickr 30k terdiri dari gambar yang diperoleh dari Flickr.
Kumpulan Data Genom Visual
- Alamat: http://visualgenome.org/
- Pendahuluan: Visual Genome adalah kumpulan data pemahaman semantik gambar berskala besar yang dirilis oleh Li Feifei pada tahun 2016, termasuk data gambar dan tanya jawab. Anotasinya padat dan semantiknya beragam. Kumpulan data ini berisi 5 juta pasangan gambar-teks.
Kumpulan Data Teks Konseptual (CC).
- Alamat: https://ai.google.com/research/ConceptualCaptions/download
- Pendahuluan: Teks Konseptual (CC) adalah data multimodal beranotasi non-manusia, termasuk URL gambar dan subjudul. Deskripsi subtitle yang sesuai disaring dari atribut alt-text situs web. Kumpulan data CC dibagi menjadi dua versi: CC3M (sekitar 3,3 juta pasangan gambar-teks) dan CC12M (sekitar 12 juta pasangan gambar-teks) karena volume data yang berbeda.
Kumpulan Data YFCC100M
- Alamat: http://projects.dfki.uni-kl.de/yfcc100m/
- Pendahuluan: Database YFCC100M adalah database gambar berbasis Yahoo Flickr sejak 2014. Basis data tersebut terdiri dari 100 juta data media yang dihasilkan antara tahun 2004 dan 2014, termasuk 99,2 juta data foto dan 800.000 data video. Kumpulan data YFCC100M membuat dokumen data teks berdasarkan database. Setiap baris dalam dokumen adalah bagian metadata foto atau video.
Kumpulan Data ALT200M
- Alamat: Tidak ada
- [Pendahuluan]: ALT200M adalah kumpulan data gambar-teks berskala besar yang dibuat oleh tim Microsoft untuk mempelajari karakteristik tren penskalaan dalam tugas deskripsi. Kumpulan data ini berisi 200 juta pasangan gambar-teks. Deskripsi teks yang sesuai disaring dari atribut alt-text situs web. (Kumpulan data pribadi, tidak ada tautan kumpulan data)
Kumpulan Data LAION-400M
- Alamat: https://laion.ai/blog/laion-400-open-dataset/
- Pendahuluan: LAION-400M memperoleh teks dan gambar dari halaman web dari tahun 2014 hingga 2021 melalui CommonCrwal, lalu menggunakan CLIP untuk memfilter pasangan gambar-teks dengan kesamaan gambar dan penyematan teks yang lebih rendah dari 0,3, yang pada akhirnya mempertahankan 400 juta pasangan gambar-teks. Namun, LAION-400M berisi sejumlah besar gambar yang tidak nyaman, yang berdampak lebih besar pada tugas pembuatan teks dan gambar. Banyak orang menggunakan kumpulan data ini untuk menghasilkan gambar pornografi, yang berdampak buruk. Oleh karena itu, kumpulan data yang lebih besar dan lebih bersih menjadi suatu kebutuhan.
Kumpulan Data LAION-5B
- Alamat: https://laion.ai/blog/laion-5b/
- Pendahuluan: LAION-5B adalah kumpulan data multimodal terbesar yang diketahui saat ini dan bersumber terbuka. Ia memperoleh teks dan gambar melalui CommonCrawl, dan kemudian menggunakan CLIP untuk memfilter pasangan gambar-teks yang kesamaan gambar dan teksnya lebih rendah dari 0,28, yang pada akhirnya mempertahankan 5 miliar pasangan gambar-teks. Kumpulan data tersebut berisi 2,32 miliar deskripsi dalam bahasa Inggris, 2,26 miliar dalam 100+ bahasa lainnya, dan 1,27 miliar bahasa yang tidak diketahui.
Kumpulan Data Teks Gambar (WIT) berbasis Wikipedia Kumpulan Data Teks Gambar (WIT) berbasis Wikipedia
- Alamat: https://github.com/google-research-datasets/wit/blob/main/DATA.md
- Pendahuluan: Kumpulan data WIT (Teks Gambar berbasis Wikipedia) adalah kumpulan data multi-modal multi-bahasa besar yang berisi lebih dari 37 juta kumpulan teks gambar yang berisi lebih dari 11 juta gambar unik dalam lebih dari 100 bahasa. Kami menyediakan WIT sebagai satu set file 10 tsv (zip). Total ukuran kumpulan data kira-kira 25 GB. Ini adalah keseluruhan kumpulan data pelatihan. Jika Anda ingin memulai dengan cepat, pilih salah satu dari ~2,5GB file yang akan memberi Anda ~10% data dan berisi kumpulan ~3,5 juta+ contoh teks gambar. Kami juga menyertakan set validasi dan pengujian (masing-masing 5 file).
Kumpulan Data LAION-5B
- Alamat: https://laion.ai/blog/laion-5b/
- Pendahuluan: LAION-5B adalah kumpulan data multimodal terbesar yang diketahui saat ini dan bersumber terbuka. Ia memperoleh teks dan gambar melalui CommonCrawl, dan kemudian menggunakan CLIP untuk memfilter pasangan gambar-teks yang kesamaan gambar dan teksnya lebih rendah dari 0,28, yang pada akhirnya mempertahankan 5 miliar pasangan gambar-teks. Kumpulan data tersebut berisi 2,32 miliar deskripsi dalam bahasa Inggris, 2,26 miliar dalam 100+ bahasa lainnya, dan 1,27 miliar bahasa yang tidak diketahui.
TaiSu (TaiSu--kumpulan data pra-pelatihan bahasa visual Tiongkok berskala besar berskala miliaran tingkat)
- Alamat: https://github.com/ksOAn6g5/TaiSu
- Pendahuluan: TaiSu: 166 juta kumpulan data pra-pelatihan bahasa visual Tiongkok berkualitas tinggi berskala besar
COYO-700M: Kumpulan data pasangan gambar-teks berskala besar
- Alamat: https://huggingface.co/datasets/kakaobrain/coyo-700m
- Pendahuluan: COYO-700M adalah kumpulan data besar yang berisi 747 juta pasangan gambar-teks bersama dengan banyak atribut meta lainnya untuk meningkatkan kegunaan dalam melatih berbagai model. Kumpulan data kami mengikuti strategi serupa dengan kumpulan data visual dan linguistik sebelumnya, mengumpulkan banyak teks alternatif informatif dan pasangan gambar terkait dalam dokumen HTML. Kami berharap COYO digunakan untuk melatih model dasar berskala besar yang populer, melengkapi kumpulan data serupa lainnya.
- Contoh contoh
WIT: Kumpulan data teks gambar berdasarkan Wikipedia
- Alamat: https://github.com/google-research-datasets/wit
- Pendahuluan: Kumpulan data Image to Text (WIT) berbasis Wikipedia adalah kumpulan data multi-modal multi-bahasa yang besar. WIT terdiri dari kumpulan 37,6 juta contoh teks gambar kaya entitas yang dikurasi, berisi 11,5 juta gambar unik dalam 108 bahasa Wikipedia. Ukurannya memungkinkan WIT digunakan sebagai kumpulan data pra-pelatihan untuk model pembelajaran mesin multimodal.
- Paper WIT: Kumpulan Data Teks Gambar berbasis Wikipedia untuk Pembelajaran Mesin Multimodal Multibahasa
- Contoh contoh
DifusiDB
- Alamat: https://huggingface.co/datasets/poloclub/diffusiondb
- Pendahuluan: DiffusionDB adalah kumpulan data permintaan teks-ke-gambar berskala besar pertama. Ini berisi 14 juta gambar yang dihasilkan oleh difusi stabil menggunakan isyarat dan hyperparameter nyata yang ditentukan pengguna. Ukuran dan keragaman kumpulan data yang digerakkan oleh manusia yang belum pernah terjadi sebelumnya ini memberikan peluang penelitian yang menarik untuk memahami interaksi antara isyarat dan model generatif, mendeteksi deepfake, dan merancang alat interaksi manusia-komputer untuk membantu pengguna menggunakan model ini dengan lebih mudah. 2 juta gambar di DiffusionDB 2M dibagi menjadi 2.000 folder, yang masing-masing berisi 1.000 gambar dan file JSON yang menghubungkan 1.000 gambar ke isyarat dan hyperparameternya. Demikian pula, 14 juta gambar di DiffusionDB Large dibagi menjadi 14.000 folder.
- Paper DiffusionDB: Kumpulan Data Galeri Prompt Berskala Besar untuk Model Generatif Teks-ke-Gambar
- Contoh contoh
2. Kumpulan data penyempurnaan grafik Vincent
- DreamBooth: Menyempurnakan model difusi teks-ke-gambar untuk pembuatan berdasarkan topik
- Alamat: https://github.com/google/dreambooth
- Pendahuluan: Kumpulan data ini mencakup 30 subjek dalam 15 kategori berbeda. Sembilan diantaranya merupakan subyek hidup (anjing dan kucing) dan 21 obyek. Kumpulan data ini berisi sejumlah gambar yang bervariasi (4-6) per subjek.
3. Kumpulan data gambar pembuatan teks yang dapat dikontrol
- Kumpulan Data Barang COCO
- Alamat: https://github.com/nightrome/cocostuff
- Pendahuluan: COCO-Stuff menyempurnakan semua gambar 164K dari kumpulan data COCO [2] yang populer dengan anotasi konten tingkat piksel. Anotasi ini dapat digunakan untuk tugas pemahaman adegan seperti segmentasi semantik, deteksi objek, dan pembuatan teks gambar.
- Contoh contoh
- Unduhan baris perintah
# Get this repo
git clone https://github.com/nightrome/cocostuff.git
cd cocostuff
# Download everything
wget --directory-prefix=downloads http://images.cocodataset.org/zips/train2017.zip
wget --directory-prefix=downloads http://images.cocodataset.org/zips/val2017.zip
wget --directory-prefix=downloads http://calvin.inf.ed.ac.uk/wp-content/uploads/data/cocostuffdataset/stuffthingmaps_trainval2017.zip
# Unpack everything
mkdir -p dataset/images
mkdir -p dataset/annotations
unzip downloads/train2017.zip -d dataset/images/
unzip downloads/val2017.zip -d dataset/images/
unzip downloads/stuffthingmaps_trainval2017.zip -d dataset/annotations/
- * Pick-a-Pic: Kumpulan data terbuka tentang preferensi pengguna untuk pembuatan teks-ke-gambar
- Alamat: https://huggingface.co/datasets/yuvalkirstain/pickapic_v1
- Pendahuluan: Kumpulan data Pick-a-Pic dikumpulkan melalui aplikasi web Pick-a-Pic dan berisi lebih dari 500.000 contoh preferensi manusia terhadap gambar yang dihasilkan model. Kumpulan data dengan URL, bukan gambar sebenarnya (yang membuatnya berukuran lebih kecil) dapat ditemukan di sini.
- Pengunduhan baris perintah [akselerasi domestik]
1. 下载hfd
wget https://hf-mirror.com/hfd/hfd.sh
chmod a+x hfd.sh
2. 设置环境变量
export HF_ENDPOINT=https://hf-mirror.com
3.1 下载模型
./hfd.sh gpt2 --tool aria2c -x 4
3.2 下载数据集
./hfd.sh yuvalkirstain/pickapic_v1 --dataset --tool aria2c -x 4
DeepFashion-MultiModal
- Alamat: https://drive.google.com/drive/folders/1An2c_ZCkeGmhJg0zUjtZF46vyJgQwIr2
- Pendahuluan: Kumpulan data ini adalah kumpulan data tubuh manusia berskala besar dan berkualitas tinggi dengan anotasi multi-modal yang kaya. Ia memiliki sifat-sifat berikut: Berisi 44.096 gambar tubuh manusia beresolusi tinggi, termasuk 12.701 gambar seluruh tubuh manusia. Untuk setiap gambar seluruh tubuh, kami secara manual memberi anotasi pada 24 kategori label penguraian tubuh. Untuk setiap gambar seluruh tubuh, kami memberi anotasi secara manual pada poin-poin penting. Setiap gambar dianotasi secara manual dengan atribut bentuk dan tekstur pakaian. Kami memberikan deskripsi teks untuk setiap gambar. DeepFashion-MultiModal dapat diterapkan pada pembuatan gambar manusia berbasis teks, manipulasi gambar manusia dengan panduan teks, pembuatan gambar manusia dengan panduan kerangka, estimasi pose manusia, subtitle gambar manusia, pembelajaran multi-modal gambar manusia, pengenalan atribut manusia, dan manusia prediksi penguraian tubuh, dll., kumpulan data ini disajikan di Text2Human.
- Makalah: Text2Human: Pembuatan Gambar Manusia Terkendali Berbasis Teks
Mode Dalam
- Alamat: https://mmlab.ie.cuhk.edu.hk/projects/DeepFashion.html
- Pendahuluan: Kumpulan data ini adalah database pakaian berskala besar dengan beberapa properti menarik: Pertama, DeepFashion berisi lebih dari 800.000 gambar mode yang beragam, mulai dari gambar toko berpose hingga foto konsumen tanpa batasan, yang merupakan database analisis mode visual terbesar. Kedua, DeepFashion memberi anotasi pada informasi item pakaian yang kaya. Setiap gambar dalam kumpulan data ini dianotasi dengan 50 kategori, 1.000 atribut deskriptif, kotak pembatas, dan landmark pakaian. Ketiga, DeepFashion berisi lebih dari 300.000 pasangan gambar lintas pose/lintas domain. Empat tolok ukur dikembangkan menggunakan database DeepFashion, termasuk prediksi atribut, pengambilan pakaian dari konsumen ke toko, pengambilan pakaian di dalam toko, dan deteksi landmark. Data dan anotasi dari tolok ukur ini juga dapat digunakan sebagai rangkaian pelatihan dan pengujian untuk tugas-tugas visi komputer seperti deteksi pakaian, pengenalan pakaian, dan pengambilan gambar.
- Tesis: ViscoNet: Menjembatani dan Harmonisasi Pengkondisian Visual dan Tekstual untuk ControlNet
Kumpulan Data COCO (Keterangan COCO).
- Alamat: https://cocodataset.org/#download
- Pendahuluan: COCO Captions adalah kumpulan data teks yang menargetkan pemahaman pemandangan, menangkap data gambar dari pemandangan kehidupan sehari-hari, dan secara manual menghasilkan deskripsi gambar. Kumpulan data ini berisi 330 ribu pasangan gambar-teks.
- PaperText ke pembuatan gambar Menggunakan Generative Adversarial Networks (GANs)
- Contoh contoh
Kumpulan Data CUBS-2000-2021
- Alamat: https://www.vision.caltech.edu/datasets/cub_200_2011/
- Data terkait: https://www.vision.caltech.edu/datasets/
- Pendahuluan: Kumpulan data ini adalah kumpulan data terperinci yang diusulkan oleh Institut Teknologi California pada tahun 2010. Kumpulan data ini juga merupakan kumpulan data gambar patokan untuk penelitian klasifikasi dan pengenalan terperinci saat ini. Kumpulan data memiliki total 11.788 gambar burung, termasuk 200 subkategori burung. Kumpulan data pelatihan memiliki 5.994 gambar dan set pengujian memiliki 5.794 gambar. Setiap gambar memberikan informasi label kelas gambar dan batasan burung di kotak gambar. informasi bagian penting burung, dan informasi atribut burung.
- PaperText ke pembuatan gambar Menggunakan Generative Adversarial Networks (GANs)
- Contoh contoh
102 Kategori Kumpulan Data Bunga
- Alamat: https://www.robots.ox.ac.uk/~vgg/data/flowers/102/
- Pendahuluan: Kami membuat kumpulan data 102 kategori yang terdiri dari 102 kategori bunga. Bunga ini dipilih sebagai bunga umum di Inggris. Setiap kategori terdiri dari 40 hingga 258 gambar.
- Contoh contoh
- Referensi: https://blog.csdn.net/air__heaven/article/details/136141343
- Setelah mengunduh kumpulan data gambar, Anda perlu mengunduh kumpulan data teks yang sesuai. Gunakan juga Google Cloud Disk untuk mengunduh: https://drive.google.com/file/d/1G4QRcRZ_s57giew6wgnxemwWRDb-3h5P/view
Flickr8k_dataset
- Alamat: https://www.robots.ox.ac.uk/~vgg/data/flowers/102/
- Pendahuluan: Koleksi tolok ukur baru untuk deskripsi dan penelusuran gambar berbasis kalimat, terdiri dari 8.000 gambar, masing-masing disertai dengan lima keterangan berbeda yang memberikan deskripsi jelas tentang entitas dan peristiwa yang menonjol. Gambar-gambar tersebut dipilih dari enam grup Flickr yang berbeda dan cenderung tidak menyertakan orang atau tempat terkenal, namun dipilih secara khusus untuk menggambarkan berbagai adegan dan situasi.
- Makalah: Keterangan untuk Pembuatan Gambar menggunakan Deep Residual Generative Adversarial Networks [DR-GAN]
Flickr8k_Dataset.zip https://github.com/jbrownlee/Datasets/releases/download/Flickr8k/Flickr8k_Dataset.zip
Flickr8k_text.zip https://github.com/jbrownlee/Datasets/releases/download/Flickr8k/Flickr8k_text.zip
- Flickr30k_dataset Jentikkan 30k dataset untuk teks gambar
- Alamat: https://www.kaggle.com/datasets/adityajn105/flickr30k
- Pendahuluan: Koleksi tolok ukur baru untuk deskripsi dan penelusuran gambar berbasis kalimat, terdiri dari 30.000 gambar, masing-masing disertai dengan lima keterangan berbeda yang memberikan deskripsi jelas tentang entitas dan peristiwa yang menonjol. …gambar-gambar ini dipilih dari enam grup Flickr yang berbeda dan sering kali tidak berisi orang atau tempat terkenal, namun dipilih secara khusus untuk menggambarkan beragam adegan dan situasi
Kumpulan Data Kata Benda secara otomatis menambahkan judul ke kartu kumpulan data kata benda
- Alamat: https://huggingface.co/datasets/m1guelpf/nouns
- Pendahuluan: Kumpulan data untuk melatih model teks-ke-gambar kata benda yang secara otomatis menghasilkan judul kata benda berdasarkan atribut, warna, dan itemnya. Untuk setiap baris, kumpulan data berisi tombol gambar dan teks. gambar adalah jpeg PIL dengan ukuran berbeda dan teks adalah keterangan teks yang menyertainya. Hanya pemisahan kereta yang tersedia.
- Contoh contoh
Kumpulan Data OxfordTVG-HIC Kumpulan Data Teks Gambar Humor Skala Besar
- Alamat: https://github.com/runjiali-rl/Oxford_HIC?tab=readme-ov-file
- Pendahuluan: Ini adalah kumpulan data besar untuk menghasilkan dan memahami humor. Humor adalah konstruksi kognitif yang abstrak, subjektif, dan bergantung pada konteks yang melibatkan banyak faktor kognitif, menjadikan pembuatan dan interpretasinya sebagai tugas yang menantang. Oxford HIC menyediakan sekitar 2,9 juta pasangan gambar-teks dengan skor humor untuk melatih model teks humor secara umum. Berbeda dengan kumpulan data teks yang ada, Oxford HIC memiliki beragam sentimen dan keragaman semantik, sehingga contoh di luar konteks sangat bermanfaat untuk menghasilkan humor.
- Contoh contoh
Kumpulan data teks gambar wajah skala besar Multi-Modal-CelebA-HQ
- Alamat: https://github.com/IIGROUP/MM-CelebA-HQ-Dataset
- Pendahuluan: Multi-Modal-CelebA-HQ (MM-CelebA-HQ) adalah kumpulan data gambar wajah berskala besar, yang memiliki 30 ribu gambar wajah beresolusi tinggi, dipilih dari kumpulan data CelebA menurut CelebA-HQ. Setiap gambar dalam dataset disertai dengan topeng semantik, sketsa, teks deskriptif, dan gambar dengan latar belakang transparan. Multi-Modal-CelebA-HQ dapat digunakan untuk melatih dan mengevaluasi algoritme untuk berbagai tugas, termasuk pembuatan teks-ke-gambar, manipulasi gambar dengan panduan teks, pembuatan sketsa-ke-gambar, pembuatan teks gambar, dan jawaban pertanyaan visual. Dataset ini diperkenalkan dan digunakan di TediGAN.
- Contoh contoh
Kumpulan data 3D
1. Kumpulan data pra-pelatihan
- Multimodal3DIdent: Kumpulan data multimodal dari pasangan gambar/teks yang dihasilkan dari faktor kebenaran dasar yang dapat dikontrol
- Alamat: https://zenodo.org/records/7678231
- Pendahuluan: Kode resmi untuk menghasilkan kumpulan data Multimodal3Dident diperkenalkan dalam artikel "Hasil Identifikasi Pembelajaran Kontrastif Multimodal" yang diterbitkan di ICLR 2023. Kumpulan data ini memberikan tolok ukur kemampuan mengenali yang berisi pasangan gambar/teks yang dihasilkan dari faktor kebenaran dasar yang dapat dikontrol, beberapa di antaranya digunakan bersama antara modalitas gambar dan teks, seperti yang ditunjukkan dalam contoh berikut.
- Makalah: Hasil Identifikasi untuk Pembelajaran Kontrasif Multimodal
2. Kumpulan data penyempurnaan grafik Vincent
3. Kumpulan data gambar pembuatan teks yang dapat dikontrol