DocBank เป็นชุดข้อมูลขนาดใหญ่ใหม่ที่สร้างขึ้นโดยใช้แนวทางการควบคุมดูแลที่อ่อนแอ ช่วยให้โมเดลสามารถรวมทั้งข้อมูลข้อความและเค้าโครงสำหรับงานดาวน์สตรีม ชุดข้อมูล DocBank ปัจจุบันประกอบด้วยหน้าเอกสาร 500,000 หน้า โดยที่ 400,000 สำหรับการฝึกอบรม, 50,000 สำหรับการตรวจสอบ และ 50,000 สำหรับการทดสอบ
เราได้อัปโหลดชุดข้อมูลบน HuggingFace
เราอัปเดตใบอนุญาตเป็น Apache-2.0
สามารถดาวน์โหลดคำอธิบายประกอบรูปแบบ MSCOCO ได้จากหน้าแรกของชุดข้อมูล DocBank
เพิ่มโมเดล ResNeXt-101 ใน Model Zoo แล้ว
เอกสารของเราได้รับการยอมรับใน COLING2020 และเอกสารเวอร์ชันพร้อมสำหรับกล้องได้รับการอัปเดตบน arXiv.com
เรามีชุดข้อมูลโหลดเดอร์ชื่อ DocBankLoader และยังสามารถแปลง DocBank เป็นรูปแบบของโมเดล Object Detection
DocBank เป็นส่วนขยายตามธรรมชาติของชุดข้อมูล TableBank (repo, paper)
LayoutLM (repo, paper) เป็นวิธีการฝึกอบรมล่วงหน้าที่มีประสิทธิภาพสำหรับข้อความและเค้าโครง และเก็บถาวรผลลัพธ์ SOTA บน DocBank
สำหรับงานวิเคราะห์เค้าโครงเอกสาร มีชุดข้อมูลเค้าโครงเอกสารที่ใช้รูปภาพบางชุด ในขณะที่ส่วนใหญ่สร้างขึ้นสำหรับแนวทางการมองเห็นด้วยคอมพิวเตอร์ และยากต่อการนำไปใช้กับวิธี NLP นอกจากนี้ ชุดข้อมูลแบบรูปภาพส่วนใหญ่จะประกอบด้วยรูปภาพหน้าและกล่องขอบของโครงสร้างความหมายขนาดใหญ่ ซึ่งไม่ใช่คำอธิบายประกอบระดับโทเค็นแบบละเอียด นอกจากนี้ ยังต้องใช้เวลาและแรงงานมากในการสร้างการจัดเรียงบล็อกข้อความระดับโทเค็นที่ติดป้ายกำกับโดยมนุษย์และแบบละเอียด ดังนั้นจึงจำเป็นอย่างยิ่งที่จะต้องใช้ประโยชน์จากการควบคุมดูแลที่อ่อนแอเพื่อให้ได้เอกสารที่มีป้ายกำกับอย่างละเอียดโดยใช้ความพยายามน้อยที่สุด ขณะเดียวกันก็ทำให้ข้อมูลสามารถนำไปใช้กับ NLP และแนวทางคอมพิวเตอร์วิทัศน์ได้อย่างง่ายดาย
ด้วยเหตุนี้ เราจึงสร้างชุดข้อมูล DocBank ซึ่งเป็นเกณฑ์มาตรฐานระดับเอกสารพร้อมคำอธิบายประกอบระดับโทเค็นที่ละเอียดสำหรับการวิเคราะห์เลย์เอาต์ แตกต่างจากชุดข้อมูลที่ติดป้ายกำกับโดยมนุษย์ทั่วไป แนวทางของเราได้รับคำอธิบายประกอบคุณภาพสูงด้วยวิธีที่เรียบง่ายแต่มีประสิทธิภาพโดยมีการควบคุมดูแลที่อ่อนแอ
ชุดข้อมูล DocBank ประกอบด้วยหน้าเอกสาร 500,000 หน้าพร้อมหน่วยความหมาย 12 ประเภท
แยก | เชิงนามธรรม | ผู้เขียน | คำบรรยายภาพ | วันที่ | สมการ | รูป | ส่วนท้าย | รายการ | ย่อหน้า | อ้างอิง | ส่วน | โต๊ะ | ชื่อ | ทั้งหมด |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
รถไฟ | 25,387 | 25,909 | 106,723 | 6,391 | 161,140 | 90,429 | 38,482 | 44,927 | 398,086 | 44,813 | 180,774 | 19,638 | 21,688 | 400,000 |
6.35% | 6.48% | 26.68% | 1.60% | 40.29% | 22.61% | 9.62% | 11.23% | 99.52% | 11.20% | 45.19% | 4.91% | 5.42% | 100.00% | |
นักพัฒนา | 3,164 | 3,286 | 13,443 | 797 | 20,154 | 11,463 | 4,804 | 5,609 | 49,759 | 5,549 | 22,666 | 2,374 | 2,708 | 50,000 |
6.33% | 6.57% | 26.89% | 1.59% | 40.31% | 22.93% | 9.61% | 11.22% | 99.52% | 11.10% | 45.33% | 4.75% | 5.42% | 100.00% | |
ทดสอบ | 3,176 | 3,277 | 13,476 | 832 | 20,244 | 11,378 | 4,876 | 5,553 | 49,762 | 5,641 | 22,384 | 2,505 | 2,729 | 50,000 |
6.35% | 6.55% | 26.95% | 1.66% | 40.49% | 22.76% | 9.75% | 11.11% | 99.52% | 11.28% | 44.77% | 5.01% | 5.46% | 100.00% | |
ทั้งหมด | 31,727 | 32,472 | 133,642 | 8,020 | 201,538 | 113,270 | 48,162 | 56,089 | 497,607 | 56,003 | 225,824 | 24,517 | 27,125 | 500,000 |
6.35% | 6.49% | 26.73% | 1.60% | 40.31% | 22.65% | 9.63% | 11.22% | 99.52% | 11.20% | 45.16% | 4.90% | 5.43% | 100.00% |
ปี | รถไฟ | นักพัฒนา | ทดสอบ | ทั้งหมด | ||||
---|---|---|---|---|---|---|---|---|
2014 | 65,976 | 16.49% | 8,270 | 16.54% | 8,112 | 16.22% | 82,358 | 16.47% |
2558 | 77,879 | 19.47% | 9,617 | 19.23% | 9,700 | 19.40% | 97,196 | 19.44% |
2559 | 87,006 | 21.75% | 10,970 | 21.94% | 10,990 | 21.98% | 108,966 | 21.79% |
2017 | 91,583 | 22.90% | 11,623 | 23.25% | 11,464 | 22.93% | 114,670 | 22.93% |
2018 | 77,556 | 19.39% | 9,520 | 19.04% | 9,734 | 19.47% | 96,810 | 19.36% |
ทั้งหมด | 400,000 | 100.00% | 50,000 | 100.00% | 50,000 | 100.00% | 500,000 | 100.00% |
ชุดข้อมูล | #เพจ | #ยูนิต | ตามภาพ? | แบบข้อความ? | เนื้อละเอียด? | ขยายได้หรือไม่? |
---|---|---|---|---|---|---|
บทความภูมิภาค | 100 | 9 | ||||
GROTOAP2 | 119,334 | 22 | ||||
PubLayNet | 364,232 | 5 | ||||
โต๊ะแบงก์ | 417,234 | 1 | ||||
ด็อกแบงก์ | 500,000 | 12 |
เนื่องจากชุดข้อมูลได้รับการใส่คำอธิบายประกอบอย่างสมบูรณ์ในระดับโทเค็น เราจึงถือว่างานการวิเคราะห์เค้าโครงเอกสารเป็นงานการติดป้ายกำกับลำดับตามข้อความ
ภายใต้การตั้งค่านี้ เราจะประเมินโมเดลภาษาที่ได้รับการฝึกอบรมล่วงหน้าตัวแทนสามชุดในชุดข้อมูลของเรา รวมถึง BERT, RoBERTa และ LayoutLM เพื่อตรวจสอบประสิทธิภาพของ DocBank
เพื่อตรวจสอบประสิทธิภาพของโมเดลจากรูปแบบที่แตกต่างกันบน DocBank เราได้ฝึกโมเดล Faster R-CNN ในรูปแบบการตรวจจับวัตถุของ DocBank และรวมเอาต์พุตเข้ากับโมเดลการติดฉลากลำดับเพื่อประเมิน
เนื่องจากอินพุตของแบบจำลองของเราเป็นเอกสาร 2 มิติที่ต่อเนื่องกัน การประเมินการติดแท็ก BIO โดยทั่วไปจึงไม่เหมาะกับงานของเรา โทเค็นของแต่ละหน่วยความหมายอาจกระจายไม่ต่อเนื่องในลำดับอินพุต
ในกรณีนี้ เราได้เสนอตัวชี้วัดใหม่ โดยเฉพาะอย่างยิ่งสำหรับวิธีการวิเคราะห์เค้าโครงเอกสารแบบข้อความ สำหรับโครงสร้างความหมายเอกสารแต่ละประเภท เราได้คำนวณเมตริกแยกกัน คำจำกัดความมีดังนี้:
เส้นฐานของ BERT และ RoBERTa ของเราสร้างขึ้นจาก Transformers ของ HuggingFace ในขณะที่เส้นฐานของ LayoutLM ถูกนำไปใช้กับ codebase ในพื้นที่เก็บข้อมูลอย่างเป็นทางการของ LayoutLM เราใช้ V100 GPU 8 ตัว โดยมีขนาดแบทช์ 10 ตัวต่อ GPU ใช้เวลา 5 ชั่วโมงในการปรับแต่ง 1 ยุคบนหน้าเอกสารขนาด 400,000 หน้า เราใช้โทเค็น BERT และ RoBERTa เพื่อสร้างโทเค็นตัวอย่างการฝึกอบรมและปรับโมเดลให้เหมาะสมด้วย AdamW อัตราการเรียนรู้เริ่มต้นของเครื่องมือเพิ่มประสิทธิภาพคือ 5e-5 เราแบ่งข้อมูลออกเป็นขนาดบล็อกสูงสุดที่ N=512 เราใช้ Detectron2 เพื่อฝึกโมเดล Faster R-CNN บน DocBank เราใช้อัลกอริธึม Faster R-CNN กับ ResNeXt-101 เป็นสถาปัตยกรรมเครือข่ายแกนหลัก โดยที่พารามิเตอร์จะได้รับการฝึกอบรมล่วงหน้าบนชุดข้อมูล ImageNet
โมเดล | เชิงนามธรรม | ผู้เขียน | คำบรรยายภาพ | สมการ | รูป | ส่วนท้าย | รายการ | ย่อหน้า | อ้างอิง | ส่วน | โต๊ะ | ชื่อ | ค่าเฉลี่ยมาโคร |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
เบิร์ต-เบส | 0.9294 | 0.8484 | 0.8629 | 0.8152 | 1.0000 | 0.7805 | 0.7133 | 0.9619 | 0.9310 | 0.9081 | 0.8296 | 0.9442 | 0.8770 |
โรเบอร์ต้า-เบส | 0.9288 | 0.8618 | 0.8944 | 0.8248 | 1.0000 | 0.8014 | 0.7353 | 0.9646 | 0.9341 | 0.9337 | 0.8389 | 0.9511 | 0.8891 |
เค้าโครงlm-ฐาน | 0.9816 | 0.8595 | 0.9597 | 0.8947 | 1.0000 | 0.8957 | 0.8948 | 0.9788 | 0.9338 | 0.9598 | 0.8633 | 0.9579 | 0.9316 |
เบิร์ต-ใหญ่ | 0.9286 | 0.8577 | 0.8650 | 0.8177 | 1.0000 | 0.7814 | 0.6960 | 0.9619 | 0.9284 | 0.9065 | 0.8320 | 0.9430 | 0.8765 |
โรเบอร์ตา-ใหญ่ | 0.9479 | 0.8724 | 0.9081 | 0.8370 | 1.0000 | 0.8392 | 0.7451 | 0.9665 | 0.9334 | 0.9407 | 0.8494 | 0.9461 | 0.8988 |
เค้าโครงlm-ใหญ่ | 0.9784 | 0.8783 | 0.9556 | 0.8974 | 1.0000 | 0.9146 | 0.9004 | 0.9790 | 0.9332 | 0.9596 | 0.8679 | 0.9552 | 0.9350 |
X101 | 0.9717 | 0.8227 | 0.9435 | 0.8938 | 0.8812 | 0.9029 | 0.9051 | 0.9682 | 0.8798 | 0.9412 | 0.8353 | 0.9158 | 0.9051 |
X101 และเค้าโครง lm-base | 0.9815 | 0.8907 | 0.9669 | 0.9430 | 0.9990 | 0.9292 | 0.9300 | 0.9843 | 0.9437 | 0.9664 | 0.8818 | 0.9575 | 0.9478 |
X101 & เลย์เอาต์ - ขนาดใหญ่ | 0.9802 | 0.8964 | 0.9666 | 0.9440 | 0.9994 | 0.9352 | 0.9293 | 0.9844 | 0.9430 | 0.9670 | 0.8875 | 0.9531 | 0.9488 |
เราประเมินแบบจำลองหกแบบในชุดทดสอบของ DocBank เราสังเกตเห็นว่าเค้าโครง LM ได้รับคะแนนสูงสุดในป้ายกำกับ {นามธรรม, ผู้แต่ง, คำอธิบายภาพ, สมการ, รูปภาพ, ส่วนท้าย, รายการ, ย่อหน้า, ส่วน, ตาราง, ชื่อ} โมเดล RoBERTa ได้รับประสิทธิภาพที่ดีที่สุดบนป้ายกำกับ "อ้างอิง" แต่ช่องว่างกับ LayoutLM นั้นน้อยมาก สิ่งนี้บ่งชี้ว่าสถาปัตยกรรม LayoutLM นั้นดีกว่าสถาปัตยกรรม BERT และ RoBERTa อย่างมากในงานวิเคราะห์โครงร่างเอกสาร
นอกจากนี้เรายังประเมินโมเดล ResNeXt-101 และโมเดล Ensemble สองโมเดลที่รวม ResNeXt-101 และ LayoutLM เข้าด้วยกัน ผลลัพธ์ของโมเดล ResNeXt-101 คือกล่องขอบเขตของโครงสร้างความหมาย เพื่อรวมเอาต์พุตของพวกมันเข้าด้วยกัน เราจะทำเครื่องหมายโทเค็นภายในกล่องขอบเขตแต่ละกล่องด้วยป้ายกำกับของกล่องขอบเขตที่เกี่ยวข้อง หลังจากนั้น เราจะคำนวณหน่วยเมตริกตามสมการข้างต้น
โมเดลที่ผ่านการฝึกอบรมพร้อมให้ดาวน์โหลดแล้วใน DocBank Model Zoo
เรามีสคริปต์สำหรับแปลงไฟล์ PDF เป็นข้อมูลรูปแบบ DocBank คุณสามารถเรียกใช้สคริปต์ประมวลผล PDF pdf_process.py ได้ในไดเร็กทอรีสคริปต์ คุณอาจต้องติดตั้งการขึ้นต่อกันของสคริปต์นี้ผ่านตัวติดตั้งแพ็คเกจ pip
สคริปต์ซีดี หลาม pdf_process.py --data_dir /path/to/pdf/directory --output_dir /path/to/data/output/directory
**กรุณาอย่าเผยแพร่ข้อมูลของเราซ้ำ**
หากคุณใช้คลังข้อมูลในงานตีพิมพ์ โปรดอ้างอิงในส่วน "กระดาษและการอ้างอิง"
เรามีตัวอย่าง 100 ตัวอย่างสำหรับการดูตัวอย่าง รวมถึงไฟล์ดัชนีของชุดการฝึก การตรวจสอบ และการทดสอบในไดเร็กทอรี indexed_files
ในงานนี้ เราทำให้กล่องขอบเขตทั้งหมดเป็นมาตรฐานโดยใช้ขนาดของหน้า PDF และปรับขนาดแต่ละค่าให้อยู่ในช่วง 0-1,000 เพื่อให้พอดีกับเลย์เอาต์ของเอกสารต่างๆ
คำอธิบายประกอบและรูปภาพเอกสารต้นฉบับของชุดข้อมูล DocBank สามารถดาวน์โหลดได้จาก HuggingFace
หมิงห่าว ลี, ยี่เหิง ซู, เล่ยชุย, เฉาหาน หวง, ฟูรู เหว่ย, โจวจุน ลี่, หมิงโจว
https://arxiv.org/abs/2006.01038
@misc{li2020docbank, title={DocBank: A Benchmark Dataset for Document Layout Analysis}, author={Minghao Li and Yiheng Xu and Lei Cui and Shaohan Huang and Furu Wei and Zhoujun Li and Ming Zhou}, year={2020}, eprint={2006.01038}, archivePrefix={arXiv}, primaryClass={cs.CL} }