DocBank عبارة عن مجموعة بيانات جديدة واسعة النطاق تم إنشاؤها باستخدام نهج إشراف ضعيف. فهو يمكّن النماذج من دمج كل من المعلومات النصية ومعلومات التخطيط للمهام النهائية. تشتمل مجموعة بيانات DocBank الحالية على 500 ألف صفحة مستندات، منها 400 ألف للتدريب و50 ألف للتحقق و50 ألف للاختبار.
لقد قمنا بتحميل مجموعات البيانات على HuggingFace.
نقوم بتحديث الترخيص إلى Apache-2.0.
يمكن تنزيل التعليق التوضيحي لتنسيق MSCOCO من الصفحة الرئيسية لمجموعة بيانات DocBank.
تمت إضافة نموذج ResNeXt-101 إلى Model Zoo.
تم قبول ورقتنا البحثية في COLING2020 وتم تحديث ورقة الإصدار الجاهزة للكاميرا على arXiv.com
نحن نقدم أداة تحميل مجموعة بيانات تسمى DocBankLoader ويمكنها أيضًا تحويل DocBank إلى تنسيق نماذج اكتشاف الكائنات
يعد DocBank امتدادًا طبيعيًا لمجموعة بيانات TableBank (الريبو والورق).
يعد LayoutLM (الريبو والورق) طريقة فعالة للتدريب المسبق للنص والتخطيط وأرشفة نتيجة SOTA على DocBank
بالنسبة لمهام تحليل تخطيط المستند، كانت هناك بعض مجموعات بيانات تخطيط المستند المستندة إلى الصور، في حين أن معظمها مصمم لمناهج رؤية الكمبيوتر ومن الصعب تطبيقها على أساليب البرمجة اللغوية العصبية. بالإضافة إلى ذلك، تتضمن مجموعات البيانات المستندة إلى الصور بشكل أساسي صور الصفحة والمربعات المحيطة للهياكل الدلالية الكبيرة، والتي ليست تعليقات توضيحية دقيقة الحبيبات على مستوى الرمز المميز. علاوة على ذلك، يستغرق الأمر أيضًا وقتًا طويلاً ويتطلب عمالة مكثفة لإنتاج ترتيب كتل نصية ذات علامات بشرية ودقيقة الحبيبات على مستوى الرمز المميز. لذلك، من الضروري الاستفادة من الإشراف الضعيف للحصول على مستندات مصنفة بدقة بأقل جهد، وفي الوقت نفسه جعل البيانات قابلة للتطبيق بسهولة على أي نهج للبرمجة اللغوية العصبية ورؤية الكمبيوتر.
ولتحقيق هذه الغاية، قمنا ببناء مجموعة بيانات DocBank، وهي معيار مرجعي على مستوى المستند مع تعليقات توضيحية دقيقة على مستوى الرمز المميز لتحليل التخطيط. وبعيدًا عن مجموعات البيانات التقليدية التي يحمل علامة بشرية، فإن منهجنا يحصل على تعليقات توضيحية عالية الجودة بطريقة بسيطة ولكنها فعالة مع إشراف ضعيف.
تتكون مجموعة بيانات DocBank من 500 ألف صفحة مستندات مع 12 نوعًا من الوحدات الدلالية.
ينقسم | خلاصة | مؤلف | التسمية التوضيحية | تاريخ | معادلة | شكل | تذييل | قائمة | فقرة | مرجع | قسم | طاولة | عنوان | المجموع |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
يدرب | 25,387 | 25,909 | 106,723 | 6,391 | 161,140 | 90,429 | 38,482 | 44,927 | 398,086 | 44813 | 180,774 | 19,638 | 21,688 | 400000 |
6.35% | 6.48% | 26.68% | 1.60% | 40.29% | 22.61% | 9.62% | 11.23% | 99.52% | 11.20% | 45.19% | 4.91% | 5.42% | 100.00% | |
ديف | 3,164 | 3,286 | 13,443 | 797 | 20,154 | 11,463 | 4,804 | 5,609 | 49,759 | 5,549 | 22,666 | 2,374 | 2,708 | 50.000 |
6.33% | 6.57% | 26.89% | 1.59% | 40.31% | 22.93% | 9.61% | 11.22% | 99.52% | 11.10% | 45.33% | 4.75% | 5.42% | 100.00% | |
امتحان | 3,176 | 3,277 | 13,476 | 832 | 20,244 | 11,378 | 4876 | 5,553 | 49,762 | 5,641 | 22,384 | 2,505 | 2,729 | 50.000 |
6.35% | 6.55% | 26.95% | 1.66% | 40.49% | 22.76% | 9.75% | 11.11% | 99.52% | 11.28% | 44.77% | 5.01% | 5.46% | 100.00% | |
المجموع | 31,727 | 32,472 | 133,642 | 8,020 | 201,538 | 113,270 | 48,162 | 56,089 | 497,607 | 56,003 | 225,824 | 24,517 | 27,125 | 500000 |
6.35% | 6.49% | 26.73% | 1.60% | 40.31% | 22.65% | 9.63% | 11.22% | 99.52% | 11.20% | 45.16% | 4.90% | 5.43% | 100.00% |
سنة | يدرب | ديف | امتحان | الجميع | ||||
---|---|---|---|---|---|---|---|---|
2014 | 65,976 | 16.49% | 8,270 | 16.54% | 8,112 | 16.22% | 82,358 | 16.47% |
2015 | 77879 | 19.47% | 9,617 | 19.23% | 9,700 | 19.40% | 97,196 | 19.44% |
2016 | 87,006 | 21.75% | 10,970 | 21.94% | 10,990 | 21.98% | 108,966 | 21.79% |
2017 | 91,583 | 22.90% | 11,623 | 23.25% | 11,464 | 22.93% | 114,670 | 22.93% |
2018 | 77,556 | 19.39% | 9,520 | 19.04% | 9,734 | 19.47% | 96,810 | 19.36% |
المجموع | 400000 | 100.00% | 50.000 | 100.00% | 50.000 | 100.00% | 500000 | 100.00% |
مجموعة البيانات | #صفحات | #الوحدات | على أساس الصورة؟ | على أساس النص؟ | غرامة الحبيبات؟ | قابلة للتمديد؟ |
---|---|---|---|---|---|---|
مناطق المادة | 100 | 9 | ✔ | ✘ | ✔ | ✘ |
جروتوب2 | 119,334 | 22 | ✔ | ✘ | ✘ | ✘ |
بوبلاي نت | 364,232 | 5 | ✔ | ✘ | ✔ | ✘ |
TableBank | 417,234 | 1 | ✔ | ✘ | ✔ | ✔ |
دوكبانك | 500000 | 12 | ✔ | ✔ | ✔ | ✔ |
نظرًا لأن مجموعة البيانات تم شرحها بالكامل على مستوى الرمز المميز، فإننا نعتبر مهمة تحليل تخطيط المستند بمثابة مهمة وضع علامات على التسلسل قائمة على النص.
في ظل هذا الإعداد، نقوم بتقييم ثلاثة نماذج لغوية تمثيلية مدربة مسبقًا في مجموعة البيانات الخاصة بنا بما في ذلك BERT وRoBERTa وLayoutLM للتحقق من فعالية DocBank.
للتحقق من أداء النماذج من طرائق مختلفة على DocBank، نقوم بتدريب نموذج Faster R-CNN على تنسيق اكتشاف الكائنات في DocBank وتوحيد مخرجاته مع نماذج وضع العلامات التسلسلية لتقييمها.
نظرًا لأن مدخلات نموذجنا عبارة عن مستندات ثنائية الأبعاد متسلسلة، فإن التقييم النموذجي لوضع العلامات الحيوية غير مناسب لمهمتنا. قد يتم توزيع الرموز المميزة لكل وحدة دلالية بشكل متقطع في تسلسل الإدخال.
في هذه الحالة، اقترحنا مقياسًا جديدًا، خاصة لطرق تحليل تخطيط المستند المستندة إلى النص. لكل نوع من البنية الدلالية للوثيقة، قمنا بحساب مقاييسها بشكل فردي. التعريف هو كما يلي:
تم بناء خطوط الأساس الخاصة بنا لـ BERT وRoBERTa على محولات HuggingFace بينما يتم تنفيذ خطوط الأساس LayoutLM مع قاعدة التعليمات البرمجية الموجودة في مستودع LayoutLM الرسمي. استخدمنا 8 وحدات معالجة رسوميات V100 بحجم دفعة 10 لكل وحدة معالجة رسومات. يستغرق الأمر 5 ساعات لضبط فترة واحدة على صفحات المستندات التي يصل حجمها إلى 400 ألف. استخدمنا رموز BERT وRoBERTa لترميز عينات التدريب وتحسين النموذج باستخدام AdamW. معدل التعلم الأولي للمحسن هو 5e-5. قمنا بتقسيم البيانات إلى حجم كتلة أقصى يبلغ N = 512. نحن نستخدم Detectron2 لتدريب نموذج Faster R-CNN على DocBank. نحن نستخدم خوارزمية Faster R-CNN مع ResNeXt-101 باعتبارها بنية الشبكة الأساسية، حيث يتم تدريب المعلمات مسبقًا على مجموعة بيانات ImageNet.
نماذج | خلاصة | مؤلف | التسمية التوضيحية | معادلة | شكل | تذييل | قائمة | فقرة | مرجع | قسم | طاولة | عنوان | المتوسط الكلي |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
قاعدة بيرت | 0.9294 | 0.8484 | 0.8629 | 0.8152 | 1.0000 | 0.7805 | 0.7133 | 0.9619 | 0.9310 | 0.9081 | 0.8296 | 0.9442 | 0.8770 |
قاعدة روبرتا | 0.9288 | 0.8618 | 0.8944 | 0.8248 | 1.0000 | 0.8014 | 0.7353 | 0.9646 | 0.9341 | 0.9337 | 0.8389 | 0.9511 | 0.8891 |
ltylm-base | 0.9816 | 0.8595 | 0.9597 | 0.8947 | 1.0000 | 0.8957 | 0.8948 | 0.9788 | 0.9338 | 0.9598 | 0.8633 | 0.9579 | 0.9316 |
بيرت كبير | 0.9286 | 0.8577 | 0.8650 | 0.8177 | 1.0000 | 0.7814 | 0.6960 | 0.9619 | 0.9284 | 0.9065 | 0.8320 | 0.9430 | 0.8765 |
روبرتا كبيرة | 0.9479 | 0.8724 | 0.9081 | 0.8370 | 1.0000 | 0.8392 | 0.7451 | 0.9665 | 0.9334 | 0.9407 | 0.8494 | 0.9461 | 0.8988 |
Layoutlm-Large | 0.9784 | 0.8783 | 0.9556 | 0.8974 | 1.0000 | 0.9146 | 0.9004 | 0.9790 | 0.9332 | 0.9596 | 0.8679 | 0.9552 | 0.9350 |
X101 | 0.9717 | 0.8227 | 0.9435 | 0.8938 | 0.8812 | 0.9029 | 0.9051 | 0.9682 | 0.8798 | 0.9412 | 0.8353 | 0.9158 | 0.9051 |
X101 وقاعدة التخطيط | 0.9815 | 0.8907 | 0.9669 | 0.9430 | 0.9990 | 0.9292 | 0.9300 | 0.9843 | 0.9437 | 0.9664 | 0.8818 | 0.9575 | 0.9478 |
X101 وتخطيط كبير | 0.9802 | 0.8964 | 0.9666 | 0.9440 | 0.9994 | 0.9352 | 0.9293 | 0.9844 | 0.9430 | 0.9670 | 0.8875 | 0.9531 | 0.9488 |
نقوم بتقييم ستة نماذج في مجموعة اختبار DocBank. نلاحظ أن LayoutLM يحصل على أعلى الدرجات في التسميات {abstract، Author، caption، المعادلة، الشكل، التذييل، القائمة، الفقرة، القسم، الجدول، العنوان}. يحصل نموذج RoBERTa على أفضل أداء على الملصق "المرجعي" ولكن الفجوة مع LayoutLM صغيرة جدًا. يشير هذا إلى أن بنية LayoutLM أفضل بكثير من بنية BERT وRoBERTa في مهمة تحليل تخطيط المستند.
نقوم أيضًا بتقييم نموذج ResNeXt-101 ونموذجين مجمعين يجمعان بين ResNeXt-101 وLayoutLM. إن مخرجات نموذج ResNeXt-101 هي المربعات المحيطة بالهياكل الدلالية. لتوحيد مخرجاتها، نقوم بوضع علامة على الرموز المميزة داخل كل مربع محيط بواسطة تسمية المربع المحيط المقابل. بعد ذلك، نقوم بحساب المقاييس باتباع المعادلة أعلاه.
النماذج المدربة متاحة للتنزيل في DocBank Model Zoo.
نحن نقدم برنامجًا نصيًا لتحويل ملفات PDF إلى بيانات تنسيق DocBank. يمكنك تشغيل البرنامج النصي لمعالجة PDF pdf_process.py في دليل البرامج النصية. قد تحتاج إلى تثبيت بعض تبعيات هذا البرنامج النصي من خلال مثبت حزمة النقطة.
مخطوطات القرص المضغوط بايثون pdf_process.py --data_dir /path/to/pdf/directory --output_dir /path/to/data/output/directory
**يرجى عدم إعادة توزيع بياناتنا.**
إذا كنت تستخدم المجموعة في عمل منشور، فيرجى الاستشهاد بها بالإشارة إلى قسم "الأوراق والاستشهادات".
نحن نقدم 100 عينة للمعاينة بالإضافة إلى ملفات الفهرس الخاصة بمجموعات التدريب والتحقق من الصحة والاختبار في دليل indexed_files
.
في هذا العمل، نقوم بتطبيع جميع المربعات المحيطة باستخدام حجم صفحات PDF وقياس كل قيمة في نطاق من 0 إلى 1000 لتناسب تخطيطات المستندات المختلفة.
يمكن تنزيل التعليقات التوضيحية وصور المستندات الأصلية لمجموعة بيانات DocBank من HuggingFace .
مينغهاو لي، يينغ شو، لي كوي، شاوهان هوانغ، فورو وي، تشوجون لي، مينغ تشو
https://arxiv.org/abs/2006.01038
@misc{li2020docbank, title={DocBank: A Benchmark Dataset for Document Layout Analysis}, author={Minghao Li and Yiheng Xu and Lei Cui and Shaohan Huang and Furu Wei and Zhoujun Li and Ming Zhou}, year={2020}, eprint={2006.01038}, archivePrefix={arXiv}, primaryClass={cs.CL} }