التحكم في إنشاء النصوص والصور ومجموعات البيانات
مجموعة بيانات توليد النص إلى الصورة يمكن التحكم فيها
مجموعة بيانات ثنائية الأبعاد
1. مجموعة بيانات ما قبل التدريب
مجموعة بيانات نوح-ووكونج
- العنوان: https://wukong-dataset.github.io/wukong-dataset/download.html
- المقدمة: مجموعة بيانات Noah-Wukong عبارة عن مجموعة بيانات صينية متعددة الوسائط واسعة النطاق. تحتوي مجموعة البيانات هذه على 100 مليون زوج من الصور والنص.
الصفر: ضبط نماذج نشر النص إلى الصورة من أجل إنشاء يعتمد على الموضوع
- العنوان: https://zero.so.com/download.html
- المقدمة: Zero عبارة عن معيار صيني متعدد الوسائط واسع النطاق، يتكون من مجموعتي بيانات ما قبل التدريب تسمى Zero-Corpus وخمس مجموعات بيانات نهائية.
- مجموعة بيانات ما قبل التدريب 23 مليون مجموعة بيانات (مجموعة بيانات صفرية). يتم جمع المجموعة الصفرية من محركات البحث وتحتوي على صور وأوصاف نصية مقابلة، ويتم تصفيتها من 5 مليارات زوج من الصور والنصوص بناءً على معدلات النقر إلى الظهور للمستخدم. 2.3 مليون مجموعة بيانات (Zero-Corpus-Sub). مجموعة بيانات فرعية من الجسم الفارغ. قد يتطلب تدريب نموذج VLP على مجموعة صفرية موارد GPU مكثفة، لذلك يتم أيضًا توفير مجموعة بيانات فرعية تحتوي على 10% من أزواج الصور والنصوص لأغراض البحث.
- مجموعة البيانات النهائية
- تم تصميم ICM لمهام مطابقة الصور والنصوص. يحتوي على 400000 زوج من الصور والنص، بما في ذلك 200000 مثال إيجابي و200000 مثال سلبي.
- IQM هي أيضًا مجموعة بيانات تستخدم لمهام مطابقة الصور والنص. وعلى عكس ICM، فإننا نستخدم استعلامات البحث بدلاً من نص الوصف التفصيلي. وبالمثل، يحتوي IQM على 200000 حالة إيجابية و200000 حالة سلبية.
- لقد جمعنا ICR 200000 زوجًا من الصور والنصوص. أنه يحتوي على مهام استرجاع الصورة إلى نص واسترجاع النص إلى صورة.
- لقد تم أيضًا اقتراح IQR IQR لمهام استرجاع نصوص الصور. نختار بشكل عشوائي 200000 استعلام وصور مقابلة كأزواج استعلام صور مشروحة مماثلة لـ IQM.
- Flickr30k-CNA لقد جمعنا لغويين محترفين من الإنجليزية والصينية لإعادة ترجمة جميع بيانات Flickr30k بعناية والتحقق بعناية من كل جملة. ساهمت شركة Beijing Magic Data Technology Co., Ltd. في ترجمة مجموعة البيانات هذه.
مجموعة بيانات فليكر 30 كيلو
- العنوان: https://shannon.cs.illinois.edu/DenotationGraph/data/index.html
- مقدمة: تتكون مجموعة بيانات Flickr 30k من صور تم الحصول عليها من Flickr.
مجموعة بيانات الجينوم المرئي
- العنوان: http://visualgenome.org/
- مقدمة: الجينوم المرئي عبارة عن مجموعة بيانات فهم دلالي للصور واسعة النطاق أصدرها Li Feifei في عام 2016، بما في ذلك بيانات الصور والأسئلة والأجوبة. والشروح كثيفة والدلالات متنوعة. تحتوي مجموعة البيانات هذه على 5 ملايين زوج من الصور والنص.
مجموعة بيانات التسميات التوضيحية المفاهيمية (CC).
- العنوان: https://ai.google.com/research/ConceptualCaptions/download
- المقدمة: التسميات التوضيحية المفاهيمية (CC) عبارة عن بيانات متعددة الوسائط مشروحة غير بشرية، بما في ذلك عنوان URL للصورة والعناوين الفرعية. تتم تصفية وصف الترجمة المقابل من سمة النص البديل لموقع الويب. تنقسم مجموعة بيانات CC إلى نسختين: CC3M (حوالي 3.3 مليون زوج من الصور والنص) وCC12M (حوالي 12 مليون زوج من الصور والنص) بسبب اختلاف أحجام البيانات.
مجموعة بيانات YFCC100M
- العنوان: http://projects.dfki.uni-kl.de/yfcc100m/
- مقدمة: قاعدة بيانات YFCC100M هي قاعدة بيانات صور تعتمد على Yahoo Flickr منذ عام 2014. تتكون قاعدة البيانات من 100 مليون قطعة من بيانات الوسائط التي تم إنشاؤها بين عامي 2004 و2014، بما في ذلك 99.2 مليون قطعة من بيانات الصور و800000 قطعة من بيانات الفيديو. تقوم مجموعة بيانات YFCC100M بإنشاء مستند بيانات نصي يعتمد على قاعدة البيانات. كل سطر في المستند عبارة عن جزء من البيانات الوصفية لصورة أو مقطع فيديو.
مجموعة بيانات ALT200M
- العنوان: لا يوجد
- [مقدمة]: ALT200M عبارة عن مجموعة بيانات نصية وصورية واسعة النطاق أنشأها فريق Microsoft لدراسة خصائص قياس الاتجاهات في مهام الوصف. تحتوي مجموعة البيانات هذه على 200 مليون زوج من الصور والنصوص. تتم تصفية وصف النص المقابل من سمة النص البديل لموقع الويب. (مجموعة بيانات خاصة، لا يوجد رابط لمجموعة بيانات)
مجموعة بيانات LAION-400M
- العنوان: https://laion.ai/blog/laion-400-open-dataset/
- المقدمة: يحصل LAION-400M على النصوص والصور من صفحات الويب من 2014 إلى 2021 من خلال CommonCrwal، ثم يستخدم CLIP لتصفية أزواج الصور والنصوص التي يكون فيها التشابه بين الصورة والنص أقل من 0.3، مما يؤدي في النهاية إلى الاحتفاظ بـ 400 مليون زوج من الصور والنص. ومع ذلك، يحتوي LAION-400M على عدد كبير من الصور غير المريحة، والتي لها تأثير أكبر على مهمة إنشاء النص والصور. يستخدم العديد من الأشخاص مجموعة البيانات هذه لإنشاء صور إباحية، مما يؤدي إلى نتائج سيئة. ولذلك، تصبح مجموعات البيانات الأكبر والأنظف مطلبًا.
مجموعة بيانات LAION-5B
- العنوان: https://laion.ai/blog/laion-5b/
- المقدمة: LAION-5B هي أكبر مجموعة بيانات متعددة الوسائط معروفة حاليًا ومفتوحة المصدر. فهو يحصل على النص والصور من خلال CommonCrawl، ثم يستخدم CLIP لتصفية أزواج الصور والنص التي يكون تشابه الصورة والنص المضمن أقل من 0.28، مما يؤدي في النهاية إلى الاحتفاظ بـ 5 مليارات زوج من الصور والنص. تحتوي مجموعة البيانات على 2.32 مليار وصف باللغة الإنجليزية، و2.26 مليار في أكثر من 100 لغة أخرى، و1.27 مليار لغة غير معروفة.
مجموعة بيانات نص الصورة (WIT) المستندة إلى ويكيبيديا مجموعة بيانات نص الصورة (WIT) المستندة إلى ويكيبيديا
- العنوان: https://github.com/google-research-datasets/wit/blob/main/DATA.md
- مقدمة: مجموعة بيانات WIT (نصوص الصور المستندة إلى ويكيبيديا) عبارة عن مجموعة بيانات كبيرة متعددة الوسائط ومتعددة اللغات تحتوي على أكثر من 37 مليون مجموعة نصية مصورة تحتوي على أكثر من 11 مليون صورة فريدة عبر أكثر من 100 لغة. نحن نقدم WIT كمجموعة مكونة من 10 ملفات tsv (مضغوطة). يبلغ الحجم الإجمالي لمجموعة البيانات حوالي 25 جيجابايت. هذه هي مجموعة بيانات التدريب بأكملها. إذا كنت تريد البدء بسرعة، فاختر أيًا من الملفات التي يبلغ حجمها حوالي 2.5 جيجابايت والتي ستمنحك ما يقرب من 10% من البيانات وتحتوي على مجموعة من أمثلة نص الصور التي يبلغ حجمها حوالي 3.5 مليون+. نقوم أيضًا بتضمين مجموعات التحقق والاختبار (5 ملفات لكل منهما).
مجموعة بيانات LAION-5B
- العنوان: https://laion.ai/blog/laion-5b/
- المقدمة: LAION-5B هي أكبر مجموعة بيانات متعددة الوسائط معروفة حاليًا ومفتوحة المصدر. فهو يحصل على النص والصور من خلال CommonCrawl، ثم يستخدم CLIP لتصفية أزواج الصور والنص التي يكون تشابه الصورة والنص المضمن أقل من 0.28، مما يؤدي في النهاية إلى الاحتفاظ بـ 5 مليارات زوج من الصور والنص. تحتوي مجموعة البيانات على 2.32 مليار وصف باللغة الإنجليزية، و2.26 مليار في أكثر من 100 لغة أخرى، و1.27 مليار لغة غير معروفة.
TaiSu (TaiSu - مجموعة بيانات ما قبل التدريب على اللغة الصينية المرئية واسعة النطاق على مستوى مليار)
- العنوان: https://github.com/ksOAn6g5/TaiSu
- مقدمة: TaiSu: مجموعة بيانات ما قبل التدريب للغة المرئية الصينية عالية الجودة وواسعة النطاق بحجم 166 مليونًا
COYO-700M: مجموعة بيانات زوجية من الصور والنص واسعة النطاق
- العنوان: https://huggingface.co/datasets/kakaobrain/coyo-700m
- المقدمة: COYO-700M عبارة عن مجموعة بيانات كبيرة تحتوي على 747 مليون زوج من الصور والنصوص بالإضافة إلى العديد من السمات الوصفية الأخرى لتحسين سهولة الاستخدام في تدريب النماذج المختلفة. تتبع مجموعة البيانات الخاصة بنا استراتيجية مماثلة لمجموعات البيانات المرئية واللغوية السابقة، حيث تجمع العديد من النصوص البديلة المفيدة وأزواج الصور المرتبطة بها في مستندات HTML. ونتوقع أن يتم استخدام COYO لتدريب النماذج الأساسية واسعة النطاق، واستكمال مجموعات البيانات المماثلة الأخرى.
- مثال عينة
WIT: مجموعة بيانات نصية للصور بناءً على ويكيبيديا
- العنوان: https://github.com/google-research-datasets/wit
- مقدمة: مجموعة بيانات الصورة إلى نص (WIT) المستندة إلى ويكيبيديا هي مجموعة بيانات كبيرة متعددة الوسائط ومتعددة اللغات. يتكون WIT من مجموعة منسقة مكونة من 37.6 مليون مثال نصي مصور غني بالكيانات، يحتوي على 11.5 مليون صورة فريدة عبر 108 لغات ويكيبيديا. يتيح حجمها استخدام WIT كمجموعة بيانات ما قبل التدريب لنماذج التعلم الآلي متعددة الوسائط.
- ورقة WIT: مجموعة بيانات نصية للصور مستندة إلى ويكيبيديا للتعلم الآلي متعدد الوسائط واللغات
- مثال عينة
DiffusionDB
- العنوان: https://huggingface.co/datasets/poloclub/diffusiondb
- مقدمة: DiffusionDB هي أول مجموعة بيانات واسعة النطاق لتحويل النص إلى صورة. يحتوي على 14 مليون صورة تم إنشاؤها عن طريق الانتشار المستقر باستخدام إشارات حقيقية ومعلمات تشعبية محددة من قبل المستخدم. يوفر الحجم والتنوع غير المسبوقين لمجموعة البيانات التي يقودها الإنسان فرصًا بحثية مثيرة لفهم التفاعل بين الإشارات والنماذج التوليدية، واكتشاف التزييف العميق، وتصميم أدوات التفاعل بين الإنسان والحاسوب لمساعدة المستخدمين على استخدام هذه النماذج بسهولة أكبر. يتم تقسيم مليوني صورة في DiffusionDB 2M إلى 2000 مجلد، يحتوي كل منها على 1000 صورة وملف JSON الذي يربط 1000 صورة بإشاراتها ومعلماتها الفائقة. وبالمثل، فإن 14 مليون صورة في DiffusionDB Large مقسمة إلى 14000 مجلد.
- Paper DiffusionDB: مجموعة بيانات معرض سريع واسعة النطاق للنماذج التوليدية لتحويل النص إلى صورة
- مثال عينة
2. مجموعة بيانات الضبط الدقيق للرسم البياني لفنسنت
- DreamBooth: نماذج نشر تحويل النص إلى صورة دقيقة من أجل إنشاء يعتمد على الموضوع
- العنوان: https://github.com/google/dreambooth
- المقدمة: تتضمن مجموعة البيانات هذه 30 موضوعًا في 15 فئة مختلفة. تسعة منهم كانوا كائنات حية (كلاب وقطط) و21 كائنًا. تحتوي مجموعة البيانات هذه على عدد متغير من الصور (4-6) لكل موضوع.
3. مجموعة بيانات صورة توليد النص يمكن السيطرة عليها
- مجموعة بيانات COCO-Stuff
- العنوان: https://github.com/nightrome/cocostuff
- المقدمة: تعمل COCO-Stuff على تحسين جميع الصور التي يبلغ حجمها 164 كيلو بايت لمجموعة بيانات COCO [2] الشهيرة مع التعليقات التوضيحية للمحتوى على مستوى البكسل. يمكن استخدام هذه التعليقات التوضيحية لمهام فهم المشهد مثل التجزئة الدلالية واكتشاف الكائنات والتعليق على الصور.
- مثال عينة
- تحميل سطر الأوامر
# Get this repo
git clone https://github.com/nightrome/cocostuff.git
cd cocostuff
# Download everything
wget --directory-prefix=downloads http://images.cocodataset.org/zips/train2017.zip
wget --directory-prefix=downloads http://images.cocodataset.org/zips/val2017.zip
wget --directory-prefix=downloads http://calvin.inf.ed.ac.uk/wp-content/uploads/data/cocostuffdataset/stuffthingmaps_trainval2017.zip
# Unpack everything
mkdir -p dataset/images
mkdir -p dataset/annotations
unzip downloads/train2017.zip -d dataset/images/
unzip downloads/val2017.zip -d dataset/images/
unzip downloads/stuffthingmaps_trainval2017.zip -d dataset/annotations/
- * Pick-a-Pic: مجموعة بيانات مفتوحة لتفضيلات المستخدم لإنشاء تحويل النص إلى صورة
- العنوان: https://huggingface.co/datasets/yuvalkirstain/pickapic_v1
- المقدمة: يتم جمع مجموعة بيانات Pick-a-Pic عبر تطبيق الويب Pick-a-Pic وتحتوي على أكثر من 500000 مثال لتفضيلات الإنسان للصور التي تم إنشاؤها بواسطة النموذج. يمكن العثور هنا على مجموعة البيانات التي تحتوي على عناوين URL بدلاً من الصور الفعلية (مما يجعلها أصغر حجمًا بكثير).
- تنزيل سطر الأوامر [التسريع المحلي]
1. 下载hfd
wget https://hf-mirror.com/hfd/hfd.sh
chmod a+x hfd.sh
2. 设置环境变量
export HF_ENDPOINT=https://hf-mirror.com
3.1 下载模型
./hfd.sh gpt2 --tool aria2c -x 4
3.2 下载数据集
./hfd.sh yuvalkirstain/pickapic_v1 --dataset --tool aria2c -x 4
DeepFashion-MultiModal
- العنوان: https://drive.google.com/drive/folders/1An2c_ZCkeGmhJg0zUjtZF46vyJgQwIr2
- المقدمة: مجموعة البيانات هذه عبارة عن مجموعة بيانات واسعة النطاق وعالية الجودة لجسم الإنسان مع شروح غنية متعددة الوسائط. ويتميز بالخصائص التالية: يحتوي على 44,096 صورة عالية الدقة لجسم الإنسان، بما في ذلك 12,701 صورة لجسم الإنسان كاملاً. لكل صورة لكامل الجسم، نقوم يدويًا بتعليق 24 فئة من تسميات تحليل الجسم. لكل صورة لكامل الجسم، نقوم يدويًا بتعليق النقاط الرئيسية. يتم شرح كل صورة يدويًا بخصائص شكل الملابس وملمسها. نحن نقدم وصفا نصيا لكل صورة. يمكن تطبيق DeepFashion-MultiModal على توليد الصور البشرية المستندة إلى النص، ومعالجة الصور البشرية الموجهة بالنص، وتوليد الصور البشرية الموجهة بالهيكل العظمي، وتقدير الوضع البشري، وترجمات الصور البشرية، والتعلم متعدد الوسائط للصور البشرية، والتعرف على سمات الإنسان، والإنسان. التنبؤ بتحليل الجسم وما إلى ذلك، يتم تقديم مجموعة البيانات هذه في Text2Human.
- الورقة: Text2Human: توليد الصور البشرية التي يمكن التحكم فيها والتي تعتمد على النص
ديب فاشون
- العنوان: https://mmlab.ie.cuhk.edu.hk/projects/DeepFashion.html
- مقدمة: مجموعة البيانات هذه عبارة عن قاعدة بيانات واسعة النطاق للملابس تتمتع بالعديد من الخصائص الجذابة: أولاً، تحتوي DeepFashion على أكثر من 800000 صورة أزياء متنوعة، تتراوح من صور المتجر إلى صور المستهلك غير المقيدة، مما يشكل أكبر قاعدة بيانات لتحليل الأزياء المرئية. ثانيًا، تقوم DeepFashion بتوضيح معلومات غنية عن عناصر الملابس. يتم شرح كل صورة في مجموعة البيانات هذه بـ 50 فئة و1000 سمة وصفية ومربعات محيطة ومعالم ملابس. ثالثًا، يحتوي DeepFashion على أكثر من 300000 زوج من الصور المتقاطعة/المتعددة المجالات. تم تطوير أربعة معايير باستخدام قاعدة بيانات DeepFashion، بما في ذلك التنبؤ بالسمات، واسترجاع الملابس من المستهلك إلى المتجر، واسترجاع الملابس من المتجر، واكتشاف المعالم. يمكن أيضًا استخدام البيانات والشروح من هذه المعايير كمجموعات تدريب واختبار لمهام رؤية الكمبيوتر مثل الكشف عن الملابس، والتعرف على الملابس، واسترجاع الصور.
- الأطروحة: ViscoNet: سد وتنسيق التكييف البصري والنصى لـ ControlNet
مجموعة بيانات COCO (COCO Captions).
- العنوان: https://cocodataset.org/#download
- مقدمة: COCO Captions عبارة عن مجموعة بيانات توضيحية تستهدف فهم المشهد، وتلتقط بيانات الصور من مشاهد الحياة اليومية، وتنشئ أوصاف الصور يدويًا. تحتوي مجموعة البيانات هذه على 330 ألف زوج من الصور والنصوص.
- تحويل النص الورقي إلى صورة باستخدام شبكات الخصومة التوليدية (GANs)
- مثال عينة
مجموعة بيانات CUBS-2000-2021
- العنوان: https://www.vision.caltech.edu/datasets/cub_200_2011/
- البيانات ذات الصلة: https://www.vision.caltech.edu/datasets/
- المقدمة: مجموعة البيانات هذه عبارة عن مجموعة بيانات دقيقة اقترحها معهد كاليفورنيا للتكنولوجيا في عام 2010. وهي أيضًا مجموعة بيانات الصور القياسية لأبحاث التصنيف والتعرف الحالية. تحتوي مجموعة البيانات على إجمالي 11,788 صورة للطيور، بما في ذلك 200 فئة فرعية للطيور. تحتوي مجموعة بيانات التدريب على 5,994 صورة، وتحتوي مجموعة الاختبار على 5,794 صورة، وتوفر كل صورة معلومات عن فئة الصورة وحدود الطيور في مربع الصورة. معلومات الجزء الرئيسي من الطيور، ومعلومات السمة من الطيور.
- تحويل النص الورقي إلى صورة باستخدام شبكات الخصومة التوليدية (GANs)
- مثال عينة
102 مجموعة بيانات زهرة الفئة
- العنوان: https://www.robots.ox.ac.uk/~vgg/data/flowers/102/
- المقدمة: أنشأنا مجموعة بيانات مكونة من 102 فئة تتكون من 102 فئة من الزهور. تم اختيار هذه الزهور كزهور شائعة في بريطانيا. تتكون كل فئة من 40 إلى 258 صورة.
- مثال عينة
- المرجع: https://blog.csdn.net/air__heaven/article/details/136141343
- بعد تنزيل مجموعة بيانات الصورة، تحتاج إلى تنزيل مجموعة البيانات النصية المقابلة واستخدم Google Cloud Disk أيضًا للتنزيل: https://drive.google.com/file/d/1G4QRcRZ_s57giew6wgnxemwWRDb-3h5P/view.
Flickr8k_dataset
- العنوان: https://www.robots.ox.ac.uk/~vgg/data/flowers/102/
- المقدمة: مجموعة مرجعية جديدة لوصف الصور والبحث فيها بناءً على الجملة، وتتألف من 8000 صورة، كل منها مصحوبة بخمسة تعليقات مميزة توفر أوصافًا واضحة للكيانات والأحداث البارزة. تم اختيار الصور من ست مجموعات مختلفة على موقع Flickr ولا تميل إلى تضمين أي أشخاص أو أماكن معروفة، ولكن يتم اختيارها يدويًا لتصوير مجموعة متنوعة من المشاهد والمواقف.
- الورقة: تسمية توضيحية لتوليد الصور باستخدام شبكات الخصومة التوليدية العميقة المتبقية [DR-GAN]
Flickr8k_Dataset.zip https://github.com/jbrownlee/Datasets/releases/download/Flickr8k/Flickr8k_Dataset.zip
Flickr8k_text.zip https://github.com/jbrownlee/Datasets/releases/download/Flickr8k/Flickr8k_text.zip
- Flickr30k_dataset مجموعة بيانات Flickr30k للتسمية التوضيحية للصور
- العنوان: https://www.kaggle.com/datasets/adityajn105/flickr30k
- المقدمة: مجموعة مرجعية جديدة لوصف الصور والبحث فيها استنادًا إلى الجملة، وتتألف من 30000 صورة، كل منها مصحوبة بخمسة تعليقات مميزة توفر أوصافًا واضحة للكيانات والأحداث البارزة. …تم اختيار هذه الصور من ست مجموعات مختلفة على موقع Flickr وغالبًا لا تحتوي على أي أشخاص أو أماكن معروفة، ولكن يتم اختيارها يدويًا لتصوير مجموعة متنوعة من المشاهد والمواقف
تضيف مجموعة بيانات الأسماء العناوين تلقائيًا إلى بطاقة مجموعة بيانات الأسماء
- العنوان: https://huggingface.co/datasets/m1guelpf/nons
- المقدمة: مجموعة بيانات لتدريب نماذج تحويل النص إلى صورة التي تولد عناوين الأسماء تلقائيًا بناءً على سماتها وألوانها وعناصرها. لكل صف، تحتوي مجموعة البيانات على مفاتيح الصور والنص. الصورة عبارة عن ملفات jpeg PIL بأحجام مختلفة والنص هو التعليق النصي المصاحب. تتوفر فقط تقسيمات القطار.
- مثال عينة
مجموعة بيانات OxfordTVG-HIC مجموعة بيانات نصية للصور الفكاهية واسعة النطاق
- العنوان: https://github.com/runjiali-rl/Oxford_HIC?tab=readme-ov-file
- المقدمة: هذه مجموعة بيانات كبيرة لتوليد الفكاهة والفهم. الفكاهة هي بناء معرفي مجرد ذاتي يعتمد على السياق ويتضمن عوامل معرفية متعددة، مما يجعل توليدها وتفسيرها مهمة صعبة. يوفر Oxford HIC ما يقرب من 2.9 مليون زوج من الصور والنصوص مع درجات الفكاهة لتدريب نموذج التعليق الفكاهي العام. على النقيض من مجموعات بيانات التسميات التوضيحية الموجودة، يمتلك Oxford HIC نطاقًا واسعًا من المشاعر والتنوع الدلالي، مما يؤدي إلى أن تكون الأمثلة خارج السياق مفيدة بشكل خاص لتوليد الفكاهة.
- مثال عينة
مجموعة بيانات نصية لصورة الوجه واسعة النطاق Multi-Modal-CelebA-HQ
- العنوان: https://github.com/IIGROUP/MM-CelebA-HQ-Dataset
- المقدمة: Multi-Modal-CelebA-HQ (MM-CelebA-HQ) عبارة عن مجموعة بيانات لصور الوجه واسعة النطاق، والتي تحتوي على 30 ألف صورة وجه عالية الدقة، تم اختيارها من مجموعة بيانات CelebA وفقًا لـ CelebA-HQ. كل صورة في مجموعة البيانات مصحوبة بقناع دلالي، ورسم تخطيطي، ونص وصفي، وصورة ذات خلفية شفافة. يمكن استخدام Multi-Modal-CelebA-HQ لتدريب وتقييم الخوارزميات لمجموعة من المهام، بما في ذلك إنشاء نص إلى صورة، ومعالجة الصور الموجهة بالنص، وإنشاء رسم تخطيطي للصورة، والتعليق على الصورة، والإجابة على الأسئلة المرئية. تم تقديم مجموعة البيانات هذه واستخدامها في TediGAN.
- مثال عينة
مجموعة بيانات ثلاثية الأبعاد
1. مجموعة بيانات ما قبل التدريب
- Multimodal3DIdent: مجموعة بيانات متعددة الوسائط لأزواج الصور/النصوص التي تم إنشاؤها من عوامل الحقيقة الأرضية التي يمكن التحكم فيها
- العنوان: https://zenodo.org/records/7678231
- المقدمة: تم تقديم الكود الرسمي لإنشاء مجموعة بيانات Multimodal3DIdent في مقالة "نتائج تحديد الهوية للتعلم التقابلي متعدد الوسائط" المنشورة في ICLR 2023. توفر مجموعة البيانات هذه معيارًا لقابلية التعرف يحتوي على أزواج صور/نص تم إنشاؤها من عوامل الحقيقة الأرضية التي يمكن التحكم فيها، والتي تتم مشاركة بعضها بين طرائق الصورة والنص، كما هو موضح في المثال التالي.
- ورقة بحثية: نتائج تحديد الهوية للتعلم المقارن متعدد الوسائط
2. مجموعة بيانات الضبط الدقيق للرسم البياني لفنسنت
3. مجموعة بيانات صورة توليد النص يمكن السيطرة عليها