DocBank是一個使用弱監督方法建構的新的大規模資料集。它使模型能夠整合下游任務的文字和佈局資訊。目前的DocBank資料集總共包含500K文檔頁面,其中400K用於訓練,50K用於驗證,50K用於測試。
我們已將資料集上傳到 HuggingFace 上。
我們將許可證更新為 Apache-2.0。
MSCOCO 格式註釋可以從 DocBank 資料集主頁下載。
ResNeXt-101 模型已新增至模型動物園。
我們的論文已被 COLING2020 接收,Camera-ready 版論文已在 arXiv.com 上更新
我們提供了一個名為 DocBankLoader 的資料集載入器,它還可以將 DocBank 轉換為物件偵測模型的格式
DocBank 是 TableBank(repo、paper)資料集的自然擴展
LayoutLM(repo,論文)是一種有效的文字和佈局預訓練方法,並將 SOTA 結果存檔在 DocBank 上
對於文件佈局分析任務,已經有一些基於影像的文件佈局資料集,但它們大多是為電腦視覺方法建構的,很難應用於 NLP 方法。此外,基於影像的資料集主要包括頁面影像和大型語義結構的邊界框,它們不是細粒度的標記級註釋。此外,產生人工標記和細粒度的令牌級文字區塊排列也是耗時且費力的。因此,利用弱監督以最少的努力獲得細粒度的標記文檔,同時使數據易於應用於任何自然語言處理和計算機視覺方法至關重要。
為此,我們建立了 DocBank 資料集,這是一個文檔層級基準,具有用於佈局分析的細粒度標記層級註釋。與傳統的人工標記資料集不同,我們的方法在弱監督的情況下以簡單而有效的方式獲得高品質的註釋。
DocBank 資料集由 500K 文件頁面和 12 種語意單元組成。
分裂 | 抽象的 | 作者 | 標題 | 日期 | 方程式 | 數位 | 頁尾 | 清單 | 段落 | 參考 | 部分 | 桌子 | 標題 | 全部的 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
火車 | 25,387 | 25,909 | 106,723 | 6,391 | 161,140 | 90,429 | 38,482 | 44,927 | 398,086 | 44,813 | 180,774 | 19,638 | 21,688 | 40萬 |
6.35% | 6.48% | 26.68% | 1.60% | 40.29% | 22.61% | 9.62% | 11.23% | 99.52% | 11.20% | 45.19% | 4.91% | 5.42% | 100.00% | |
開發者 | 3,164 | 3,286 | 13,443 | 第797章 | 20,154 | 11,463 | 4,804 | 5,609 | 49,759 | 5,549 | 22,666 | 2,374 | 2,708 | 50,000 |
6.33% | 6.57% | 26.89% | 1.59% | 40.31% | 22.93% | 9.61% | 11.22% | 99.52% | 11.10% | 45.33% | 4.75% | 5.42% | 100.00% | |
測試 | 3,176 | 3,277 | 13,476 | 第832章 | 20,244 | 11,378 | 4,876 | 5,553 人 | 49,762 | 5,641 | 22,384 | 2,505 人 | 2,729 | 50,000 |
6.35% | 6.55% | 26.95% | 1.66% | 40.49% | 22.76% | 9.75% | 11.11% | 99.52% | 11.28% | 44.77% | 5.01% | 5.46% | 100.00% | |
全部的 | 31,727 | 32,472 | 133,642 | 8,020 | 201,538 | 113,270 | 48,162 | 56,089 | 497,607 | 56,003 | 225,824 | 24,517 | 27,125 | 50萬 |
6.35% | 6.49% | 26.73% | 1.60% | 40.31% | 22.65% | 9.63% | 11.22% | 99.52% | 11.20% | 45.16% | 4.90% | 5.43% | 100.00% |
年 | 火車 | 開發者 | 測試 | 全部 | ||||
---|---|---|---|---|---|---|---|---|
2014年 | 65,976 | 16.49% | 8,270 | 16.54% | 8,112 | 16.22% | 82,358 | 16.47% |
2015年 | 77,879 | 19.47% | 9,617 | 19.23% | 9,700 | 19.40% | 97,196 | 19.44% |
2016年 | 87,006 | 21.75% | 10,970 | 21.94% | 10,990 | 21.98% | 108,966 | 21.79% |
2017年 | 91,583 | 22.90% | 11,623 | 23.25% | 11,464 | 22.93% | 114,670 | 22.93% |
2018年 | 77,556 | 19.39% | 9,520 | 19.04% | 9,734 | 19.47% | 96,810 | 19.36% |
全部的 | 40萬 | 100.00% | 50,000 | 100.00% | 50,000 | 100.00% | 50萬 | 100.00% |
數據集 | #頁數 | #單位 | 基於圖像? | 基於文字? | 細粒度? | 可擴充嗎? |
---|---|---|---|---|---|---|
文章區域 | 100 | 9 | ✔ | ✘ | ✔ | ✘ |
格羅托AP2 | 119,334 | 22 | ✔ | ✘ | ✘ | ✘ |
公共網路 | 364,232 | 5 | ✔ | ✘ | ✔ | ✘ |
表格銀行 | 417,234 | 1 | ✔ | ✘ | ✔ | ✔ |
文件庫 | 50萬 | 12 | ✔ | ✔ | ✔ | ✔ |
由於資料集在標記層級進行了完全註釋,因此我們將文件佈局分析任務視為基於文字的序列標記任務。
在此設定下,我們在資料集上評估了三種代表性的預訓練語言模型,包括 BERT、RoBERTa 和 LayoutLM,以驗證 DocBank 的有效性。
為了驗證 DocBank 上不同模態模型的效能,我們在 DocBank 的目標偵測格式上訓練 Faster R-CNN 模型,並將其輸出與序列標記模型統一進行評估。
由於我們模型的輸入是序列化的二維文檔,典型的生物標記評估不適合我們的任務。每個語意單元的標記可以在輸入序列中不連續地分佈。
在這種情況下,我們提出了一種新的度量標準,特別是針對基於文字的文檔佈局分析方法。對於每種文件語意結構,我們單獨計算它們的指標。定義如下:
我們的 BERT 和 RoBERTa 基準建立在 HuggingFace 的 Transformers 之上,而 LayoutLM 基準則使用 LayoutLM 官方儲存庫中的程式碼庫實作。我們使用 8 個 V100 GPU,每個 GPU 的批次大小為 10。在 400K 文件頁上微調 1 epoch 需要 5 小時。我們使用 BERT 和 RoBERTa 分詞器對訓練樣本進行分詞,並使用 AdamW 優化模型。優化器的初始學習率為5e-5。我們將資料分割成最大區塊大小 N=512。我們使用 Detectron2 在 DocBank 上訓練 Faster R-CNN 模型。我們使用 Faster R-CNN 演算法,以 ResNeXt-101 作為主幹網路架構,其中參數在 ImageNet 資料集上進行預訓練。
型號 | 抽象的 | 作者 | 標題 | 方程式 | 數位 | 頁尾 | 清單 | 段落 | 參考 | 部分 | 桌子 | 標題 | 宏觀平均 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
伯特基地 | 0.9294 | 0.8484 | 0.8629 | 0.8152 | 1.0000 | 0.7805 | 0.7133 | 0.9619 | 0.9310 | 0.9081 | 0.8296 | 0.9442 | 0.8770 |
羅伯塔基地 | 0.9288 | 0.8618 | 0.8944 | 0.8248 | 1.0000 | 0.8014 | 0.7353 | 0.9646 | 0.9341 | 0.9337 | 0.8389 | 0.9511 | 0.8891 |
佈局基礎 | 0.9816 | 0.8595 | 0.9597 | 0.8947 | 1.0000 | 0.8957 | 0.8948 | 0.9788 | 0.9338 | 0.9598 | 0.8633 | 0.9579 | 0.9316 |
伯特·拉格 | 0.9286 | 0.8577 | 0.8650 | 0.8177 | 1.0000 | 0.7814 | 0.6960 | 0.9619 | 0.9284 | 0.9065 | 0.8320 | 0.9430 | 0.8765 |
羅伯塔大 | 0.9479 | 0.8724 | 0.9081 | 0.8370 | 1.0000 | 0.8392 | 0.7451 | 0.9665 | 0.9334 | 0.9407 | 0.8494 | 0.9461 | 0.8988 |
佈局大 | 0.9784 | 0.8783 | 0.9556 | 0.8974 | 1.0000 | 0.9146 | 0.9004 | 0.9790 | 0.9332 | 0.9596 | 0.8679 | 0.9552 | 0.9350 |
X101 | 0.9717 | 0.8227 | 0.9435 | 0.8938 | 0.8812 | 0.9029 | 0.9051 | 0.9682 | 0.8798 | 0.9412 | 0.8353 | 0.9158 | 0.9051 |
X101 和layoutlm-base | 0.9815 | 0.8907 | 0.9669 | 0.9430 | 0.9990 | 0.9292 | 0.9300 | 0.9843 | 0.9437 | 0.9664 | 0.8818 | 0.9575 | 0.9478 |
X101 和layoutlm-大 | 0.9802 | 0.8964 | 0.9666 | 0.9440 | 0.9994 | 0.9352 | 0.9293 | 0.9844 | 0.9430 | 0.9670 | 0.8875 | 0.9531 | 0.9488 |
我們在 DocBank 的測試集上評估了六個模型。我們注意到 LayoutLM 在 {abstract、author、caption、equation、figure、footer、list、paragraph、section、table、title} 標籤上獲得最高分。 RoBERTa 模型在「參考」標籤上獲得了最佳性能,但與 LayoutLM 的差距非常小。這表明 LayoutLM 架構在文件佈局分析任務中明顯優於 BERT 和 RoBERTa 架構。
我們也評估了 ResNeXt-101 模型以及結合 ResNeXt-101 和 LayoutLM 的兩個整合模型。 ResNeXt-101 模型的輸出是語意結構的邊界框。為了統一它們的輸出,我們透過對應邊界框的標籤來標記每個邊界框內的標記。之後,我們依照上述方程式計算指標。
經過訓練的模型可在 DocBank Model Zoo 中下載。
我們提供了一個腳本來將 PDF 檔案轉換為 DocBank 格式資料。您可以執行scripts目錄中的PDF處理腳本pdf_process.py。您可能需要透過 pip 軟體包安裝程式安裝此腳本的一些依賴項。
光碟腳本 python pdf_process.py --data_dir /path/to/pdf/目錄 --output_dir /路徑/到/資料/輸出/目錄
**請不要重新分發我們的資料。
如果您在已發表的作品中使用該語料庫,請參考「論文和引文」部分引用它。
我們在indexed_files
目錄中提供了100個用於預覽的樣本以及訓練集、驗證集和測試集的索引檔。
在這項工作中,我們使用 PDF 頁面的大小標準化所有邊界框,並將每個值縮放到 0-1000 的範圍內,以適應文件的各種佈局。
DocBank資料集的註解和原始文件圖片可以從HuggingFace下載。
李明浩、徐一恆、崔雷、黃少涵、魏福如、李周軍、周明
https://arxiv.org/abs/2006.01038
@misc{li2020docbank, title={DocBank: A Benchmark Dataset for Document Layout Analysis}, author={Minghao Li and Yiheng Xu and Lei Cui and Shaohan Huang and Furu Wei and Zhoujun Li and Ming Zhou}, year={2020}, eprint={2006.01038}, archivePrefix={arXiv}, primaryClass={cs.CL} }