DocBank は、弱い監視アプローチを使用して構築された新しい大規模データセットです。これにより、モデルは下流のタスクのためにテキスト情報とレイアウト情報の両方を統合できるようになります。現在の DocBank データセットには合計 500K のドキュメント ページが含まれており、そのうち 400K がトレーニング用、50K が検証用、50K がテスト用です。
データセットをHuggingFaceにアップロードしました。
ライセンスを Apache-2.0 に更新します。
MSCOCO 形式のアノテーションは、DocBank データセットのホームページからダウンロードできます。
ResNeXt-101 モデルが Model Zoo に追加されました。
私たちの論文が COLING2020 に受理され、カメラ対応バージョンの論文が arXiv.com で更新されました
DocBankLoader という名前のデータセット ローダーが提供されており、DocBank をオブジェクト検出モデルの形式に変換することもできます。
DocBank は、TableBank (リポジトリ、ペーパー) データセットの自然な拡張です。
LayoutLM (リポジトリ、ペーパー) はテキストとレイアウトの効果的な事前トレーニング方法であり、SOTA 結果を DocBank にアーカイブします
ドキュメント レイアウト分析タスクには、画像ベースのドキュメント レイアウト データセットがいくつかありますが、そのほとんどはコンピューター ビジョン アプローチ用に構築されており、NLP 手法に適用するのは困難です。さらに、画像ベースのデータセットには主にページ画像と大規模な意味構造の境界ボックスが含まれており、これらはきめ細かいトークンレベルのアノテーションではありません。さらに、人間がラベルを付けたきめ細かいトークンレベルのテキストブロックの配置を作成するには、時間と労力がかかります。したがって、弱い監視を活用して、最小限の労力できめの細かいラベル付きドキュメントを取得し、同時にそのデータを任意の NLP およびコンピューター ビジョンのアプローチに簡単に適用できるようにすることが重要です。
この目的を達成するために、レイアウト分析用のきめ細かいトークンレベルの注釈を備えたドキュメントレベルのベンチマークである DocBank データセットを構築します。従来の人間がラベル付けしたデータセットとは異なり、私たちのアプローチは、弱い監視下でシンプルかつ効果的な方法で高品質のアノテーションを取得します。
DocBank データセットは、12 種類のセマンティック ユニットを含む 500K ドキュメント ページで構成されています。
スプリット | 抽象的な | 著者 | キャプション | 日付 | 方程式 | 形 | フッター | リスト | 段落 | 参照 | セクション | テーブル | タイトル | 合計 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
電車 | 25,387 | 25,909 | 106,723 | 6,391 | 161,140 | 90,429 | 38,482 | 44,927 | 398,086 | 44,813 | 180,774 | 19,638 | 21,688 | 400,000 |
6.35% | 6.48% | 26.68% | 1.60% | 40.29% | 22.61% | 9.62% | 11.23% | 99.52% | 11.20% | 45.19% | 4.91% | 5.42% | 100.00% | |
開発者 | 3,164 | 3,286 | 13,443 | 797 | 20,154 | 11,463 | 4,804 | 5,609 | 49,759 | 5,549 | 22,666 | 2,374 | 2,708 | 50,000 |
6.33% | 6.57% | 26.89% | 1.59% | 40.31% | 22.93% | 9.61% | 11.22% | 99.52% | 11.10% | 45.33% | 4.75% | 5.42% | 100.00% | |
テスト | 3,176 | 3,277 | 13,476 | 832 | 20,244 | 11,378 | 4,876 | 5,553 | 49,762 | 5,641 | 22,384 | 2,505 | 2,729 | 50,000 |
6.35% | 6.55% | 26.95% | 1.66% | 40.49% | 22.76% | 9.75% | 11.11% | 99.52% | 11.28% | 44.77% | 5.01% | 5.46% | 100.00% | |
合計 | 31,727 | 32,472 | 133,642 | 8,020 | 201,538 | 113,270 | 48,162 | 56,089 | 497,607 | 56,003 | 225,824 | 24,517 | 27,125 | 500,000 |
6.35% | 6.49% | 26.73% | 1.60% | 40.31% | 22.65% | 9.63% | 11.22% | 99.52% | 11.20% | 45.16% | 4.90% | 5.43% | 100.00% |
年 | 電車 | 開発者 | テスト | 全て | ||||
---|---|---|---|---|---|---|---|---|
2014年 | 65,976 | 16.49% | 8,270 | 16.54% | 8,112 | 16.22% | 82,358 | 16.47% |
2015年 | 77,879 | 19.47% | 9,617 | 19.23% | 9,700 | 19.40% | 97,196 | 19.44% |
2016年 | 87,006 | 21.75% | 10,970 | 21.94% | 10,990 | 21.98% | 108,966 | 21.79% |
2017年 | 91,583 | 22.90% | 11,623 | 23.25% | 11,464 | 22.93% | 114,670 | 22.93% |
2018年 | 77,556 | 19.39% | 9,520 | 19.04% | 9,734 | 19.47% | 96,810 | 19.36% |
合計 | 400,000 | 100.00% | 50,000 | 100.00% | 50,000 | 100.00% | 500,000 | 100.00% |
データセット | #ページ | #単位 | イメージベースですか? | テキストベースですか? | きめ細かい? | 拡張可能? |
---|---|---|---|---|---|---|
記事の領域 | 100 | 9 | ✔ | ✘ | ✔ | ✘ |
グロトープ2 | 119,334 | 22 | ✔ | ✘ | ✘ | ✘ |
パブリネット | 364,232 | 5 | ✔ | ✘ | ✔ | ✘ |
テーブルバンク | 417,234 | 1 | ✔ | ✘ | ✔ | ✔ |
ドックバンク | 500,000 | 12 | ✔ | ✔ | ✔ | ✔ |
データセットにはトークン レベルで完全に注釈が付けられているため、ドキュメント レイアウト分析タスクをテキスト ベースのシーケンス ラベリング タスクとみなします。
この設定の下で、BERT、RoBERTa、LayoutLM を含む 3 つの代表的な事前トレーニング済み言語モデルをデータセットで評価し、DocBank の有効性を検証します。
DocBank 上のさまざまなモダリティからのモデルのパフォーマンスを検証するために、DocBank の物体検出形式で Faster R-CNN モデルをトレーニングし、その出力を評価するシーケンス ラベリング モデルと統合します。
私たちのモデルの入力はシリアル化された 2D ドキュメントであるため、典型的な BIO タグ付け評価は私たちのタスクには適していません。各意味単位のトークンは、入力シーケンス内で不連続に分布する場合があります。
このケースでは、特にテキストベースの文書レイアウト分析方法のための新しい指標を提案しました。文書の意味構造の種類ごとに、それらのメトリクスを個別に計算しました。定義は次のとおりです。
BERT と RoBERTa のベースラインは HuggingFace の Transformers に基づいて構築されていますが、LayoutLM ベースラインは LayoutLM の公式リポジトリのコードベースで実装されています。 GPU あたり 10 のバッチ サイズで 8 つの V100 GPU を使用しました。 400K ドキュメント ページの 1 エポックを微調整するには 5 時間かかります。 BERT および RoBERTa トークナイザーを使用してトレーニング サンプルをトークン化し、AdamW でモデルを最適化しました。オプティマイザーの初期学習率は 5e-5 です。データを最大ブロック サイズ N=512 に分割します。 DocBank で Faster R-CNN モデルをトレーニングするために Detectron2 を使用します。バックボーン ネットワーク アーキテクチャとして ResNeXt-101 を備えた Faster R-CNN アルゴリズムを使用し、パラメータは ImageNet データセットで事前トレーニングされています。
モデル | 抽象的な | 著者 | キャプション | 方程式 | 形 | フッター | リスト | 段落 | 参照 | セクション | テーブル | タイトル | マクロ平均 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
バートベース | 0.9294 | 0.8484 | 0.8629 | 0.8152 | 1.0000 | 0.7805 | 0.7133 | 0.9619 | 0.9310 | 0.9081 | 0.8296 | 0.9442 | 0.8770 |
ロバータベース | 0.9288 | 0.8618 | 0.8944 | 0.8248 | 1.0000 | 0.8014 | 0.7353 | 0.9646 | 0.9341 | 0.9337 | 0.8389 | 0.9511 | 0.8891 |
レイアウトLMベース | 0.9816 | 0.8595 | 0.9597 | 0.8947 | 1.0000 | 0.8957 | 0.8948 | 0.9788 | 0.9338 | 0.9598 | 0.8633 | 0.9579 | 0.9316 |
バートラージ | 0.9286 | 0.8577 | 0.8650 | 0.8177 | 1.0000 | 0.7814 | 0.6960 | 0.9619 | 0.9284 | 0.9065 | 0.8320 | 0.9430 | 0.8765 |
ロバータ・ラージ | 0.9479 | 0.8724 | 0.9081 | 0.8370 | 1.0000 | 0.8392 | 0.7451 | 0.9665 | 0.9334 | 0.9407 | 0.8494 | 0.9461 | 0.8988 |
レイアウトlm-large | 0.9784 | 0.8783 | 0.9556 | 0.8974 | 1.0000 | 0.9146 | 0.9004 | 0.9790 | 0.9332 | 0.9596 | 0.8679 | 0.9552 | 0.9350 |
X101 | 0.9717 | 0.8227 | 0.9435 | 0.8938 | 0.8812 | 0.9029 | 0.9051 | 0.9682 | 0.8798 | 0.9412 | 0.8353 | 0.9158 | 0.9051 |
X101 とレイアウトlm-base | 0.9815 | 0.8907 | 0.9669 | 0.9430 | 0.9990 | 0.9292 | 0.9300 | 0.9843 | 0.9437 | 0.9664 | 0.8818 | 0.9575 | 0.9478 |
X101 とレイアウト lm-large | 0.9802 | 0.8964 | 0.9666 | 0.9440 | 0.9994 | 0.9352 | 0.9293 | 0.9844 | 0.9430 | 0.9670 | 0.8875 | 0.9531 | 0.9488 |
DocBank のテスト セットで 6 つのモデルを評価します。 LayoutLM が、{abstract、author、caption、equation、Figure、footer、list、paragraph、section、table、title} ラベルで最高のスコアを取得していることがわかります。 RoBERTa モデルは「リファレンス」ラベルで最高のパフォーマンスを獲得していますが、LayoutLM との差は非常に小さいです。これは、ドキュメント レイアウト分析タスクにおいて、LayoutLM アーキテクチャが BERT および RoBERTa アーキテクチャよりも大幅に優れていることを示しています。
また、ResNeXt-101 モデルと、ResNeXt-101 と LayoutLM を組み合わせた 2 つのアンサンブル モデルも評価します。 ResNeXt-101 モデルの出力は、意味構造の境界ボックスです。それらの出力を統合するには、各境界ボックス内のトークンを、対応する境界ボックスのラベルでマークします。その後、上記の式に従ってメトリクスを計算します。
トレーニングされたモデルは、DocBank Model Zoo からダウンロードできます。
PDF ファイルを DocBank 形式のデータに変換するスクリプトを提供します。 scripts ディレクトリで PDF 処理スクリプト pdf_process.py を実行できます。 pip パッケージ インストーラーを介して、このスクリプトの一部の依存関係をインストールする必要がある場合があります。
CDスクリプト python pdf_process.py --data_dir /path/to/pdf/directory --output_dir /data/output/ディレクトリへのパス
**データを再配布しないでください。**
出版物でコーパスを使用する場合は、「論文と引用」セクションを参照して引用してください。
indexed_files
ディレクトリには、プレビュー用の 100 個のサンプルと、トレーニング、検証、およびテスト セットのインデックス ファイルが提供されています。
この作業では、PDF ページのサイズを使用してすべての境界ボックスを正規化し、ドキュメントのさまざまなレイアウトに合わせて各値を 0 ~ 1000 の範囲にスケールします。
DocBank データセットの注釈と元の文書画像は、HuggingFace からダウンロードできます。
ミンハオ・リー、イーヘン・シュー、レイ・クイ、シャオハン・ファン、フル・ウェイ、ジョウジュン・リー、ミン・ジョウ
https://arxiv.org/abs/2006.01038
@misc{li2020docbank, title={DocBank: A Benchmark Dataset for Document Layout Analysis}, author={Minghao Li and Yiheng Xu and Lei Cui and Shaohan Huang and Furu Wei and Zhoujun Li and Ming Zhou}, year={2020}, eprint={2006.01038}, archivePrefix={arXiv}, primaryClass={cs.CL} }