ชุดข้อมูลการสร้างข้อความเป็นรูปภาพที่ควบคุมได้
ชุดข้อมูลโนอาห์-วูคอง
ที่อยู่: https://wukong-dataset.github.io/wukong-dataset/download.html
บทนำ: ชุดข้อมูล Noah-Wukong เป็นชุดข้อมูลภาษาจีนหลายรูปแบบขนาดใหญ่ ชุดข้อมูลนี้มีคู่
ศูนย์: การปรับแต่งโมเดลการแพร่กระจายข้อความเป็นรูปภาพอย่างละเอียดสำหรับการสร้างตามหัวข้อ
ชุดข้อมูลก่อนการฝึกอบรม 23 ล้านชุดข้อมูล (ศูนย์ข้อมูล) Zero Corpus ถูกรวบรวมจากเครื่องมือค้นหาและมีรูปภาพและคำอธิบายข้อความที่เกี่ยวข้อง ซึ่งกรองจากคู่ข้อความรูปภาพ 5 พันล้านคู่ตามอัตราการคลิกผ่านของผู้ใช้ 2.3 ล้านชุดข้อมูล (Zero-Corpus-Sub) ชุดข้อมูลย่อยของคลังข้อมูลว่าง การฝึกโมเดล VLP บนศูนย์คลังข้อมูลอาจต้องใช้ทรัพยากร GPU จำนวนมาก ดังนั้นจึงจัดเตรียมชุดข้อมูลย่อยที่มีคู่ข้อความรูปภาพ 10% เพื่อวัตถุประสงค์ในการวิจัยด้วย
ชุดข้อมูลขั้นปลาย
ICM ได้รับการออกแบบสำหรับงานจับคู่ข้อความรูปภาพ ประกอบด้วยคู่ข้อความรูปภาพ 400,000 คู่ รวมถึงตัวอย่างเชิงบวก 200,000 รายการ และตัวอย่างเชิงลบ 200,000 รายการ
IQM ยังเป็นชุดข้อมูลที่ใช้สำหรับงานจับคู่ข้อความรูปภาพ ต่างจาก ICM ตรงที่เราใช้คำค้นหามากกว่าข้อความคำอธิบายโดยละเอียด ในทำนองเดียวกัน IQM มีผู้ป่วยที่เป็นบวก 200,000 ราย และผู้ป่วยที่เป็นลบ 200,000 ราย
ICR เรารวบรวมคู่ข้อความรูปภาพและข้อความจำนวน 200,000 คู่ ประกอบด้วยงานการดึงภาพเป็นข้อความและงานการดึงข้อความเป็นภาพ
IQR IQR ได้รับการเสนอสำหรับงานดึงข้อความรูปภาพด้วย เราสุ่มเลือกคำค้นหา 200,000 รายการและรูปภาพที่เกี่ยวข้องเป็นคู่คำค้นหารูปภาพที่มีคำอธิบายประกอบซึ่งคล้ายกับ IQM
Flickr30k-CNA เรารวบรวมนักภาษาศาสตร์ภาษาอังกฤษ-จีนมืออาชีพเพื่อแปลข้อมูล Flickr30k ทั้งหมดใหม่อย่างรอบคอบ และตรวจสอบทุกประโยคอย่างละเอียด Beijing Magic Data Technology Co., Ltd. มีส่วนร่วมในการแปลชุดข้อมูลนี้
ที่อยู่: https://zero.so.com/download.html
บทนำ: Zero คือการวัดประสิทธิภาพแบบข้ามโมดอลขนาดใหญ่ของจีน ซึ่งประกอบด้วยชุดข้อมูลก่อนการฝึกอบรมสองชุดที่เรียกว่า Zero-Corpus และชุดข้อมูลดาวน์สตรีมห้าชุด
ชุดข้อมูล Flickr 30k
ที่อยู่: https://shannon.cs.illinois.edu/DenotationGraph/data/index.html
บทนำ: ชุดข้อมูล Flickr 30k ประกอบด้วยรูปภาพที่ได้รับจาก Flickr
ชุดข้อมูลจีโนมภาพ
ที่อยู่: http://visualgenome.org/
บทนำ: Visual Genome คือชุดข้อมูลความเข้าใจความหมายของรูปภาพขนาดใหญ่ที่เผยแพร่โดย Li Feifei ในปี 2559 รวมถึงข้อมูลรูปภาพและคำถามและคำตอบ คำอธิบายประกอบมีความหนาแน่นและความหมายมีความหลากหลาย ชุดข้อมูลนี้มีคู่ข้อความรูปภาพและข้อความ 5 ล้านคู่
ชุดข้อมูลคำอธิบายภาพเชิงแนวคิด (CC)
ที่อยู่: https://ai.google.com/research/ConceptualCaptions/download
บทนำ: Conceptual Captions (CC) เป็นข้อมูลหลายรูปแบบที่มีคำอธิบายประกอบที่ไม่ใช่ของมนุษย์ รวมถึง URL รูปภาพและคำบรรยาย คำอธิบายคำบรรยายที่เกี่ยวข้องจะถูกกรองจากแอตทริบิวต์ข้อความแสดงแทนของเว็บไซต์ ชุดข้อมูล CC แบ่งออกเป็นสองเวอร์ชัน: CC3M (คู่ข้อความรูปภาพประมาณ 3.3 ล้านคู่) และ CC12M (คู่ข้อความรูปภาพประมาณ 12 ล้านคู่) เนื่องจากมีปริมาณข้อมูลที่แตกต่างกัน
ชุดข้อมูล YFCC100M
ที่อยู่: http://projects.dfki.uni-kl.de/yfcc100m/
บทนำ: ฐานข้อมูล YFCC100M เป็นฐานข้อมูลรูปภาพที่อิงจาก Yahoo Flickr ตั้งแต่ปี 2014 ฐานข้อมูลประกอบด้วยข้อมูลสื่อ 100 ล้านชิ้นที่สร้างขึ้นระหว่างปี 2547 ถึง 2557 รวมถึงข้อมูลภาพถ่าย 99.2 ล้านชิ้น และข้อมูลวิดีโอ 800,000 ชิ้น ชุดข้อมูล YFCC100M จะสร้างเอกสารข้อมูลข้อความตามฐานข้อมูล แต่ละบรรทัดในเอกสารคือชิ้นส่วนของข้อมูลเมตาของภาพถ่ายหรือวิดีโอ
ชุดข้อมูล ALT200M
ที่อยู่: ไม่มี
[บทนำ]: ALT200M เป็นชุดข้อมูลข้อความรูปภาพขนาดใหญ่ที่สร้างโดยทีมงาน Microsoft เพื่อศึกษาลักษณะของแนวโน้มการปรับขนาดในงานคำอธิบาย ชุดข้อมูลนี้มีคู่ข้อความรูปภาพและข้อความ 200 ล้านคู่ คำอธิบายข้อความที่เกี่ยวข้องจะถูกกรองจากแอตทริบิวต์ข้อความแสดงแทนของเว็บไซต์ (ชุดข้อมูลส่วนตัว ไม่มีลิงค์ชุดข้อมูล)
ชุดข้อมูล LAION-400M
ที่อยู่: https://laion.ai/blog/laion-400-open-dataset/
บทนำ: LAION-400M รับข้อความและรูปภาพจากหน้าเว็บตั้งแต่ปี 2014 ถึง 2021 ผ่าน CommonCrwal จากนั้นใช้ CLIP เพื่อกรองคู่ข้อความรูปภาพที่มีรูปภาพและข้อความฝังความคล้ายคลึงกันต่ำกว่า 0.3 ซึ่งท้ายที่สุดจะรักษาคู่ข้อความรูปภาพได้ 400 ล้านคู่ อย่างไรก็ตาม LAION-400M มีรูปภาพที่ไม่สะดวกสบายจำนวนมาก ซึ่งมีผลกระทบต่องานการสร้างข้อความและรูปภาพมากขึ้น หลายคนใช้ชุดข้อมูลนี้เพื่อสร้างภาพลามกอนาจารซึ่งส่งผลเสีย ดังนั้นชุดข้อมูลที่ใหญ่กว่าและสะอาดกว่าจึงกลายเป็นข้อกำหนด
ชุดข้อมูล LAION-5B
ที่อยู่: https://laion.ai/blog/laion-5b/
บทนำ: LAION-5B เป็นชุดข้อมูลหลายรูปแบบที่ใหญ่ที่สุดที่เป็นที่รู้จักและเป็นโอเพ่นซอร์สในปัจจุบัน โดยรับข้อความและรูปภาพผ่าน CommonCrawl จากนั้นใช้ CLIP เพื่อกรองคู่ข้อความรูปภาพที่มีความคล้ายคลึงกันในการฝังรูปภาพและข้อความต่ำกว่า 0.28 ซึ่งท้ายที่สุดจะรักษาคู่ข้อความรูปภาพได้ 5 พันล้านคู่ ชุดข้อมูลประกอบด้วยคำอธิบายภาษาอังกฤษ 2.32 พันล้านรายการ 2.26 พันล้านรายการในภาษาอื่นๆ มากกว่า 100 ภาษา และภาษาที่ไม่รู้จักอีก 1.27 พันล้านภาษา
ชุดข้อมูลข้อความรูปภาพ (WIT) ที่ใช้วิกิพีเดีย ชุดข้อมูลข้อความรูปภาพ (WIT) ที่ใช้วิกิพีเดีย
ที่อยู่: https://github.com/google-research-datasets/wit/blob/main/DATA.md
บทนำ: ชุดข้อมูล WIT (ข้อความรูปภาพบนวิกิพีเดีย) เป็นชุดข้อมูลหลายภาษาขนาดใหญ่หลายรูปแบบที่ประกอบด้วยชุดข้อความรูปภาพมากกว่า 37 ล้านชุดซึ่งประกอบด้วยรูปภาพที่ไม่ซ้ำกันมากกว่า 11 ล้านรูปภาพในกว่า 100 ภาษา เราจัดเตรียม WIT เป็นชุดไฟล์ tsv จำนวน 10 ไฟล์ (บีบอัด) ขนาดชุดข้อมูลทั้งหมดประมาณ 25GB นี่คือชุดข้อมูลการฝึกอบรมทั้งหมด หากคุณต้องการเริ่มต้นอย่างรวดเร็ว ให้เลือกไฟล์ ~2.5GB ใดก็ได้ ซึ่งจะให้ข้อมูล ~10% และมีชุดตัวอย่างข้อความรูปภาพ ~3.5M+ ชุด นอกจากนี้เรายังรวมชุดการตรวจสอบและการทดสอบ (ไฟล์ละ 5 ไฟล์)
ชุดข้อมูล LAION-5B
ที่อยู่: https://laion.ai/blog/laion-5b/
บทนำ: LAION-5B เป็นชุดข้อมูลหลายรูปแบบที่ใหญ่ที่สุดที่เป็นที่รู้จักและเป็นโอเพ่นซอร์สในปัจจุบัน โดยรับข้อความและรูปภาพผ่าน CommonCrawl จากนั้นใช้ CLIP เพื่อกรองคู่ข้อความรูปภาพที่มีความคล้ายคลึงกันในการฝังรูปภาพและข้อความต่ำกว่า 0.28 ซึ่งท้ายที่สุดจะรักษาคู่ข้อความรูปภาพได้ 5 พันล้านคู่ ชุดข้อมูลประกอบด้วยคำอธิบายภาษาอังกฤษ 2.32 พันล้านรายการ 2.26 พันล้านรายการในภาษาอื่นๆ มากกว่า 100 ภาษา และภาษาที่ไม่รู้จักอีก 1.27 พันล้านภาษา
TaiSu (TaiSu - ชุดข้อมูลก่อนการฝึกอบรมภาษาจีนขนาดใหญ่พันล้านระดับ)
ที่อยู่: https://github.com/ksOAn6g5/TaiSu
บทนำ: TaiSu: ชุดข้อมูลก่อนการฝึกอบรมภาษาจีนคุณภาพสูงขนาดใหญ่ 166M
COYO-700M: ชุดข้อมูลคู่ข้อความรูปภาพขนาดใหญ่
ที่อยู่: https://huggingface.co/datasets/kakaobrain/coyo-700m
บทนำ: COYO-700M เป็นชุดข้อมูลขนาดใหญ่ที่ประกอบด้วยคู่ข้อความรูปภาพ 747M พร้อมด้วยเมตาแอตทริบิวต์อื่นๆ อีกมากมาย เพื่อปรับปรุงการใช้งานในการฝึกโมเดลต่างๆ ชุดข้อมูลของเราเป็นไปตามกลยุทธ์ที่คล้ายกับชุดข้อมูลภาพและภาษาก่อนหน้า โดยรวบรวมข้อความแสดงแทนข้อมูลจำนวนมากและคู่รูปภาพที่เกี่ยวข้องในเอกสาร HTML เราคาดหวังว่า COYO จะถูกนำมาใช้ในการฝึกโมเดลพื้นฐานขนาดใหญ่ยอดนิยม โดยเสริมชุดข้อมูลอื่นๆ ที่คล้ายคลึงกัน
ตัวอย่าง
WIT: ชุดข้อมูลข้อความรูปภาพที่อ้างอิงจาก Wikipedia
ที่อยู่: https://github.com/google-research-datasets/wit
บทนำ: ชุดข้อมูลรูปภาพเป็นข้อความ (WIT) ที่ใช้วิกิพีเดียเป็นชุดข้อมูลหลายภาษาขนาดใหญ่หลายรูปแบบ WIT ประกอบด้วยชุดตัวอย่างข้อความรูปภาพที่มีเอนทิตีมากมายจำนวน 37.6 ล้านตัวอย่าง ซึ่งประกอบด้วยรูปภาพที่ไม่ซ้ำกัน 11.5 ล้านรูปภาพในภาษาวิกิพีเดีย 108 ภาษา ขนาดของมันทำให้ WIT สามารถใช้เป็นชุดข้อมูลก่อนการฝึกอบรมสำหรับโมเดลการเรียนรู้ของเครื่องหลายรูปแบบ
Paper WIT: ชุดข้อมูลข้อความรูปภาพที่ใช้วิกิพีเดียสำหรับการเรียนรู้ของเครื่องหลายภาษาแบบหลายรูปแบบ
ตัวอย่าง
DiffusionDB
ที่อยู่: https://huggingface.co/datasets/poloclub/diffusiondb
บทนำ: DiffusionDB เป็นชุดข้อมูลพร้อมท์ข้อความเป็นรูปภาพขนาดใหญ่ชุดแรก ประกอบด้วยรูปภาพ 14 ล้านภาพที่สร้างโดยการแพร่กระจายที่เสถียรโดยใช้ตัวชี้นำและไฮเปอร์พารามิเตอร์ที่ผู้ใช้ระบุจริง ขนาดและความหลากหลายที่ไม่เคยมีมาก่อนของชุดข้อมูลที่ขับเคลื่อนโดยมนุษย์นี้มอบโอกาสการวิจัยที่น่าตื่นเต้นสำหรับการทำความเข้าใจการทำงานร่วมกันระหว่างตัวชี้นำและแบบจำลองกำเนิด การตรวจจับ Deepfakes และการออกแบบเครื่องมือโต้ตอบระหว่างมนุษย์กับคอมพิวเตอร์เพื่อช่วยให้ผู้ใช้ใช้แบบจำลองเหล่านี้ได้ง่ายขึ้น รูปภาพ 2 ล้านรูปใน DiffusionDB 2M แบ่งออกเป็น 2,000 โฟลเดอร์ แต่ละโฟลเดอร์ประกอบด้วยรูปภาพ 1,000 รูปและไฟล์ JSON ที่เชื่อมโยงรูปภาพ 1,000 รูปกับคิวและไฮเปอร์พารามิเตอร์ ในทำนองเดียวกัน รูปภาพ 14 ล้านภาพใน DiffusionDB Large จะถูกแบ่งออกเป็น 14,000 โฟลเดอร์
Paper DiffusionDB: ชุดข้อมูลแกลเลอรีพร้อมท์ขนาดใหญ่สำหรับโมเดลการสร้างข้อความเป็นรูปภาพ
ตัวอย่าง
DreamBooth: ปรับแต่งโมเดลการแพร่กระจายข้อความเป็นรูปภาพอย่างละเอียดสำหรับการสร้างตามหัวข้อ
ที่อยู่: https://github.com/google/dreambooth
บทนำ: ชุดข้อมูลนี้ประกอบด้วย 30 วิชาใน 15 หมวดหมู่ที่แตกต่างกัน เก้าคนเป็นสิ่งมีชีวิต (สุนัขและแมว) และ 21 คนเป็นวัตถุ ชุดข้อมูลนี้มีจำนวนรูปภาพที่แตกต่างกัน (4-6) ต่อหัวเรื่อง
ชุดข้อมูล COCO-Stuff
# Get this repo git clone https://github.com/nightrome/cocostuff.git cd cocostuff # Download everything wget --directory-prefix=downloads http://images.cocodataset.org/zips/train2017.zip wget --directory-prefix=downloads http://images.cocodataset.org/zips/val2017.zip wget --directory-prefix=downloads http://calvin.inf.ed.ac.uk/wp-content/uploads/data/cocostuffdataset/stuffthingmaps_trainval2017.zip # Unpack everything mkdir -p dataset/images mkdir -p dataset/annotations unzip downloads/train2017.zip -d dataset/images/ unzip downloads/val2017.zip -d dataset/images/ unzip downloads/stuffthingmaps_trainval2017.zip -d dataset/annotations/
ที่อยู่: https://github.com/nightrome/cocostuff
บทนำ: COCO-Stuff ปรับปรุงรูปภาพ 164K ทั้งหมดของชุดข้อมูล COCO [2] ยอดนิยมพร้อมคำอธิบายประกอบเนื้อหาระดับพิกเซล คำอธิบายประกอบเหล่านี้สามารถใช้สำหรับงานทำความเข้าใจฉาก เช่น การแบ่งส่วนความหมาย การตรวจจับวัตถุ และคำบรรยายภาพ
ตัวอย่าง
ดาวน์โหลดบรรทัดคำสั่ง
* Pick-a-Pic: ชุดข้อมูลเปิดของการตั้งค่าผู้ใช้สำหรับการสร้างข้อความเป็นรูปภาพ
ที่อยู่: https://huggingface.co/datasets/yuvalkirstain/pickapic_v1
บทนำ: ชุดข้อมูล Pick-a-Pic รวบรวมผ่านแอปพลิเคชันเว็บ Pick-a-Pic และมีตัวอย่างการตั้งค่าของมนุษย์มากกว่า 500,000 ตัวอย่างสำหรับรูปภาพที่สร้างโดยโมเดล ชุดข้อมูลที่มี URL แทนที่จะเป็นรูปภาพจริง (ซึ่งทำให้มีขนาดเล็กกว่ามาก) สามารถพบได้ที่นี่
ดาวน์โหลดบรรทัดคำสั่ง [การเร่งความเร็วในประเทศ]
1. 下载hfd wget https://hf-mirror.com/hfd/hfd.sh chmod a+x hfd.sh 2. 设置环境变量 export HF_ENDPOINT=https://hf-mirror.com 3.1 下载模型 ./hfd.sh gpt2 --tool aria2c -x 4 3.2 下载数据集 ./hfd.sh yuvalkirstain/pickapic_v1 --dataset --tool aria2c -x 4
DeepFashion-MultiModal
ที่อยู่: https://drive.google.com/drive/folders/1An2c_ZCkeGmhJg0zUjtZF46vyJgQwIr2
บทนำ: ชุดข้อมูลนี้เป็นชุดข้อมูลร่างกายมนุษย์ขนาดใหญ่และมีคุณภาพสูงพร้อมคำอธิบายประกอบแบบหลายรูปแบบที่หลากหลาย โดยมีคุณสมบัติดังต่อไปนี้: ประกอบด้วยภาพร่างกายมนุษย์ที่มีความละเอียดสูง 44,096 ภาพ รวมถึงภาพร่างกายมนุษย์เต็มตัว 12,701 ภาพ สำหรับรูปภาพเต็มตัวแต่ละภาพ เราจะใส่คำอธิบายประกอบป้ายกำกับการแยกวิเคราะห์เนื้อหา 24 หมวดหมู่ด้วยตนเอง สำหรับภาพเต็มตัวแต่ละภาพ เราจะใส่คำอธิบายประกอบในประเด็นสำคัญด้วยตนเอง แต่ละภาพจะได้รับการใส่คำอธิบายประกอบด้วยตนเองพร้อมด้วยคุณลักษณะของรูปร่างและพื้นผิวของเสื้อผ้า เรามีคำอธิบายข้อความสำหรับแต่ละภาพ DeepFashion-MultiModal สามารถนำไปใช้กับการสร้างภาพมนุษย์ที่ขับเคลื่อนด้วยข้อความ การจัดการภาพมนุษย์ที่มีข้อความนำทาง การสร้างภาพมนุษย์ที่มีโครงกระดูกนำทาง การประมาณท่าทางของมนุษย์ คำบรรยายภาพมนุษย์ การเรียนรู้ภาพมนุษย์หลายรูปแบบ การจดจำคุณลักษณะของมนุษย์ และมนุษย์ การทำนายการแยกวิเคราะห์เนื้อหา ฯลฯ ชุดข้อมูลนี้นำเสนอใน Text2Human
บทความ: Text2Human: การสร้างภาพมนุษย์ที่ควบคุมได้ด้วยข้อความ
ดีพแฟชั่น
ที่อยู่: https://mmlab.ie.cuhk.edu.hk/projects/DeepFashion.html
บทนำ: ชุดข้อมูลนี้เป็นฐานข้อมูลเสื้อผ้าขนาดใหญ่ที่มีคุณสมบัติที่น่าสนใจหลายประการ ประการแรก DeepFashion ประกอบด้วยรูปภาพแฟชั่นที่หลากหลายมากกว่า 800,000 ภาพ ตั้งแต่รูปภาพในร้านค้าที่ถูกโพสท่าไปจนถึงภาพถ่ายของผู้บริโภคที่ไม่มีข้อจำกัด ซึ่งถือเป็นฐานข้อมูลการวิเคราะห์ภาพแฟชั่นที่ใหญ่ที่สุด ประการที่สอง DeepFashion จะอธิบายข้อมูลรายการเสื้อผ้าที่หลากหลาย รูปภาพแต่ละภาพในชุดข้อมูลนี้จะมีคำอธิบายประกอบด้วย 50 หมวดหมู่ คุณลักษณะเชิงพรรณนา 1,000 รายการ กรอบล้อมรอบ และจุดสังเกตเสื้อผ้า ประการที่สาม DeepFashion มีคู่รูปภาพแบบ cross-pose/cross-domain มากกว่า 300,000 คู่ การวัดประสิทธิภาพสี่รายการได้รับการพัฒนาโดยใช้ฐานข้อมูล DeepFashion รวมถึงการทำนายคุณลักษณะ การดึงเสื้อผ้าที่ผู้บริโภคมารับที่ร้าน การดึงเสื้อผ้าในร้านค้า และการตรวจจับจุดสังเกต ข้อมูลและคำอธิบายประกอบจากการวัดประสิทธิภาพเหล่านี้ยังสามารถใช้เป็นชุดการฝึกอบรมและการทดสอบสำหรับงานการมองเห็นของคอมพิวเตอร์ เช่น การตรวจจับเสื้อผ้า การจดจำเสื้อผ้า และการดึงภาพ
วิทยานิพนธ์: ViscoNet: การเชื่อมโยงและการประสานการปรับสภาพภาพและข้อความสำหรับ ControlNet
ชุดข้อมูล COCO (คำบรรยาย COCO)
ที่อยู่: https://cocodataset.org/#download
บทนำ: COCO Captions เป็นชุดข้อมูลคำบรรยายที่กำหนดเป้าหมายในการทำความเข้าใจฉาก รวบรวมข้อมูลภาพจากฉากในชีวิตประจำวัน และสร้างคำอธิบายรูปภาพด้วยตนเอง ชุดข้อมูลนี้มีคู่ข้อความรูปภาพและข้อความจำนวน 330,000 คู่
การสร้างข้อความจากกระดาษเป็นภาพโดยใช้ Generative Adversarial Networks (GAN)
ตัวอย่าง
ชุดข้อมูล CUBS-2000-2021
ที่อยู่: https://www.vision.caltech.edu/datasets/cub_200_2011/
ข้อมูลที่เกี่ยวข้อง: https://www.vision.caltech.edu/datasets/
บทนำ: ชุดข้อมูลนี้เป็นชุดข้อมูลที่ละเอียดซึ่งเสนอโดยสถาบันเทคโนโลยีแคลิฟอร์เนียในปี 2010 นอกจากนี้ยังเป็นชุดข้อมูลรูปภาพมาตรฐานสำหรับการวิจัยการจำแนกประเภทและการรับรู้แบบละเอียดในปัจจุบัน ชุดข้อมูลมีภาพนกทั้งหมด 11,788 ภาพ รวมถึงหมวดหมู่ย่อยของนก 200 ภาพ ชุดข้อมูลการฝึกอบรมมีภาพ 5,994 ภาพ และชุดทดสอบมีภาพ 5,794 ภาพ ข้อมูลส่วนสำคัญของนก และข้อมูลคุณลักษณะของนก
การสร้างข้อความจากกระดาษเป็นภาพโดยใช้ Generative Adversarial Networks (GAN)
ตัวอย่าง
ชุดข้อมูลดอกไม้ 102 หมวดหมู่
ที่อยู่: https://www.robots.ox.ac.uk/~vgg/data/flowers/102/
บทนำ: เราสร้างชุดข้อมูล 102 หมวดหมู่ซึ่งประกอบด้วยหมวดหมู่ดอกไม้ 102 หมวดหมู่ ดอกไม้ที่ได้รับเลือกให้เป็นดอกไม้ทั่วไปในอังกฤษ แต่ละหมวดหมู่ประกอบด้วยรูปภาพ 40 ถึง 258 ภาพ
ตัวอย่าง
อ้างอิง: https://blog.csdn.net/air__heaven/article/details/136141343
หลังจากดาวน์โหลดชุดข้อมูลรูปภาพแล้ว คุณต้องดาวน์โหลดชุดข้อมูลข้อความที่เกี่ยวข้องด้วย ใช้ Google Cloud Disk เพื่อดาวน์โหลด: https://drive.google.com/file/d/1G4QRcRZ_s57giew6wgnxemwWRDb-3h5P/view
Flickr8k_ชุดข้อมูล
Flickr8k_Dataset.zip https://github.com/jbrownlee/Datasets/releases/download/Flickr8k/Flickr8k_Dataset.zip Flickr8k_text.zip https://github.com/jbrownlee/Datasets/releases/download/Flickr8k/Flickr8k_text.zip
Flickr30k_dataset Flickr30k ชุดข้อมูลสำหรับคำบรรยายภาพ
ที่อยู่: https://www.kaggle.com/datasets/adityajn105/flickr30k
บทนำ: คอลเลกชันเกณฑ์มาตรฐานใหม่สำหรับคำอธิบายและการค้นหารูปภาพตามประโยค ประกอบด้วยรูปภาพ 30,000 ภาพ โดยแต่ละภาพมีคำอธิบายภาพที่แตกต่างกัน 5 รายการที่ให้คำอธิบายที่ชัดเจนเกี่ยวกับเหตุการณ์สำคัญและเหตุการณ์ต่างๆ …ภาพเหล่านี้ถูกเลือกจากกลุ่ม Flickr หกกลุ่ม และมักไม่มีบุคคลหรือสถานที่ที่มีชื่อเสียง แต่ถูกเลือกด้วยมือเพื่อบรรยายฉากและสถานการณ์ต่างๆ
ที่อยู่: https://www.robots.ox.ac.uk/~vgg/data/flowers/102/
บทนำ: คอลเลกชันเกณฑ์มาตรฐานใหม่สำหรับคำอธิบายและการค้นหารูปภาพตามประโยค ประกอบด้วยรูปภาพ 8,000 ภาพ โดยแต่ละภาพมีคำอธิบายภาพที่แตกต่างกัน 5 รายการที่ให้คำอธิบายที่ชัดเจนเกี่ยวกับเหตุการณ์สำคัญและเหตุการณ์ต่างๆ รูปภาพได้รับการคัดเลือกจากกลุ่ม Flickr หกกลุ่ม และมีแนวโน้มว่าจะไม่มีบุคคลหรือสถานที่ที่มีชื่อเสียง แต่ถูกเลือกด้วยมือเพื่อแสดงฉากและสถานการณ์ที่หลากหลาย
เอกสาร: คำบรรยายเกี่ยวกับการสร้างภาพโดยใช้ Deep Residual Generative Adversarial Networks [DR-GAN]
ชุดข้อมูลคำนาม จะเพิ่มชื่อลงในการ์ดชุดข้อมูลคำนามโดยอัตโนมัติ
ที่อยู่: https://huggingface.co/datasets/m1guelpf/nouns
บทนำ: ชุดข้อมูลสำหรับการฝึกอบรมโมเดลการแปลงข้อความเป็นรูปภาพของคำนามที่สร้างชื่อสำหรับคำนามโดยอัตโนมัติตามคุณลักษณะ สี และรายการ สำหรับแต่ละแถว ชุดข้อมูลประกอบด้วยคีย์รูปภาพและข้อความ รูปภาพเป็น PIL jpeg ขนาดต่างๆ และข้อความคือคำอธิบายประกอบข้อความ มีเฉพาะทางแยกรถไฟเท่านั้น
ตัวอย่าง
ชุดข้อมูล OxfordTVG-HIC ชุดข้อมูลข้อความภาพอารมณ์ขันขนาดใหญ่
ที่อยู่: https://github.com/runjiali-rl/Oxford_HIC?tab=readme-ov-file
บทนำ: นี่เป็นชุดข้อมูลขนาดใหญ่สำหรับการสร้างและทำความเข้าใจอารมณ์ขัน อารมณ์ขันเป็นโครงสร้างการรับรู้ที่เป็นนามธรรม อัตนัย และขึ้นอยู่กับบริบท ซึ่งเกี่ยวข้องกับปัจจัยทางการรับรู้หลายประการ ทำให้การสร้างและการตีความเป็นงานที่ท้าทาย Oxford HIC จัดทำคู่ข้อความรูปภาพพร้อมคะแนนอารมณ์ขันประมาณ 2.9 ล้านคู่เพื่อฝึกโมเดลคำบรรยายอารมณ์ขันทั่วไป ตรงกันข้ามกับชุดข้อมูลคำบรรยายที่มีอยู่ Oxford HIC มีความรู้สึกและความหลากหลายทางความหมายที่หลากหลาย ส่งผลให้ตัวอย่างที่ไม่อยู่ในบริบทมีประโยชน์อย่างยิ่งในการสร้างอารมณ์ขัน
ตัวอย่าง
Multi-Modal-CelebA-HQ ชุดข้อมูลข้อความรูปภาพใบหน้าขนาดใหญ่
ที่อยู่: https://github.com/IIGROUP/MM-CelebA-HQ-Dataset
บทนำ: Multi-Modal-CelebA-HQ (MM-CelebA-HQ) เป็นชุดข้อมูลภาพใบหน้าขนาดใหญ่ ซึ่งมีภาพใบหน้าความละเอียดสูง 30,000 ภาพ โดยเลือกจากชุดข้อมูล CelebA ตาม CelebA-HQ รูปภาพแต่ละรูปในชุดข้อมูลจะมาพร้อมกับมาสก์ความหมาย ภาพร่าง ข้อความอธิบาย และรูปภาพที่มีพื้นหลังโปร่งใส Multi-Modal-CelebA-HQ สามารถใช้เพื่อฝึกอบรมและประเมินอัลกอริธึมสำหรับงานต่างๆ รวมถึงการสร้างข้อความเป็นภาพ การจัดการรูปภาพด้วยข้อความแนะนำ การสร้างภาพร่างเป็นภาพ คำบรรยายภาพ และการตอบคำถามด้วยภาพ ชุดข้อมูลนี้ถูกนำมาใช้และใช้ใน TediGAN
ตัวอย่าง
Multimodal3DIdent: ชุดข้อมูลหลายรูปแบบของคู่รูปภาพ/ข้อความที่สร้างขึ้นจากปัจจัยความจริงภาคพื้นดินที่ควบคุมได้
ที่อยู่: https://zenodo.org/records/7678231
บทนำ: มีการแนะนำโค้ดอย่างเป็นทางการสำหรับการสร้างชุดข้อมูล Multimodal3DIdent ในบทความ "Identifiability Results of Multimodal Contrastive Learning" ที่เผยแพร่ที่ ICLR 2023 ชุดข้อมูลนี้จัดให้มีเกณฑ์มาตรฐานความสามารถในการจดจำซึ่งประกอบด้วยคู่รูปภาพ/ข้อความที่สร้างจากปัจจัยความจริงภาคพื้นดินที่ควบคุมได้ ซึ่งบางส่วนใช้ร่วมกันระหว่างรูปแบบรูปภาพและข้อความ ดังที่แสดงในตัวอย่างต่อไปนี้
บทความ: ผลลัพธ์การระบุตัวตนสำหรับการเรียนรู้แบบตรงกันข้ามหลายรูปแบบ