DocBank ist ein neuer umfangreicher Datensatz, der mithilfe eines schwachen Überwachungsansatzes erstellt wird. Es ermöglicht Modellen, sowohl Text- als auch Layoutinformationen für nachgelagerte Aufgaben zu integrieren. Der aktuelle DocBank-Datensatz umfasst insgesamt 500.000 Dokumentseiten, davon 400.000 für das Training, 50.000 für die Validierung und 50.000 für Tests.
Wir haben die Datensätze auf HuggingFace hochgeladen.
Wir aktualisieren die Lizenz auf Apache-2.0.
Die MSCOCO-Formatanmerkung kann von der DocBank-Datensatz-Homepage heruntergeladen werden.
Das Modell ResNeXt-101 wurde dem Modellzoo hinzugefügt.
Unser Papier wurde in COLING2020 angenommen und die Kamera-bereite Version des Papiers wurde auf arXiv.com aktualisiert
Wir stellen einen Datensatzlader namens DocBankLoader zur Verfügung, der DocBank auch in das Format der Objekterkennungsmodelle konvertieren kann
DocBank ist eine natürliche Erweiterung des TableBank-Datensatzes (Repo, Papier).
LayoutLM (Repo, Papier) ist eine effektive Vortrainingsmethode für Text und Layout und archiviert das SOTA-Ergebnis in DocBank
Für Aufgaben zur Dokumentlayoutanalyse gibt es einige bildbasierte Dokumentlayoutdatensätze, die meisten davon sind jedoch für Computer-Vision-Ansätze konzipiert und lassen sich nur schwer auf NLP-Methoden anwenden. Darüber hinaus umfassen bildbasierte Datensätze hauptsächlich die Seitenbilder und die Begrenzungsrahmen großer semantischer Strukturen, bei denen es sich nicht um feinkörnige Annotationen auf Token-Ebene handelt. Darüber hinaus ist es auch zeit- und arbeitsintensiv, eine vom Menschen beschriftete und feinkörnige Textblockanordnung auf Token-Ebene zu erstellen. Daher ist es wichtig, eine schwache Überwachung zu nutzen, um mit minimalem Aufwand feinkörnige, gekennzeichnete Dokumente zu erhalten und gleichzeitig dafür zu sorgen, dass die Daten problemlos auf alle NLP- und Computer-Vision-Ansätze angewendet werden können.
Zu diesem Zweck erstellen wir den DocBank-Datensatz, einen Benchmark auf Dokumentebene mit feinkörnigen Anmerkungen auf Token-Ebene für die Layoutanalyse. Unser Ansatz unterscheidet sich von den herkömmlichen, von Menschen markierten Datensätzen und liefert qualitativ hochwertige Anmerkungen auf einfache, aber effektive Weise mit schwacher Aufsicht.
Der DocBank-Datensatz besteht aus 500.000 Dokumentseiten mit 12 Arten semantischer Einheiten.
Teilt | Abstrakt | Autor | Untertitel | Datum | Gleichung | Figur | Fußzeile | Liste | Absatz | Referenz | Abschnitt | Tisch | Titel | Gesamt |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Zug | 25.387 | 25.909 | 106.723 | 6.391 | 161.140 | 90.429 | 38.482 | 44.927 | 398.086 | 44.813 | 180.774 | 19.638 | 21.688 | 400.000 |
6,35 % | 6,48 % | 26,68 % | 1,60 % | 40,29 % | 22,61 % | 9,62 % | 11,23 % | 99,52 % | 11,20 % | 45,19 % | 4,91 % | 5,42 % | 100,00 % | |
Entwickler | 3.164 | 3.286 | 13.443 | 797 | 20.154 | 11.463 | 4.804 | 5.609 | 49.759 | 5.549 | 22.666 | 2.374 | 2.708 | 50.000 |
6,33 % | 6,57 % | 26,89 % | 1,59 % | 40,31 % | 22,93 % | 9,61 % | 11,22 % | 99,52 % | 11,10 % | 45,33 % | 4,75 % | 5,42 % | 100,00 % | |
Prüfen | 3.176 | 3.277 | 13.476 | 832 | 20.244 | 11.378 | 4.876 | 5.553 | 49.762 | 5.641 | 22.384 | 2.505 | 2.729 | 50.000 |
6,35 % | 6,55 % | 26,95 % | 1,66 % | 40,49 % | 22,76 % | 9,75 % | 11,11 % | 99,52 % | 11,28 % | 44,77 % | 5,01 % | 5,46 % | 100,00 % | |
Gesamt | 31.727 | 32.472 | 133.642 | 8.020 | 201.538 | 113.270 | 48.162 | 56.089 | 497.607 | 56.003 | 225.824 | 24.517 | 27.125 | 500.000 |
6,35 % | 6,49 % | 26,73 % | 1,60 % | 40,31 % | 22,65 % | 9,63 % | 11,22 % | 99,52 % | 11,20 % | 45,16 % | 4,90 % | 5,43 % | 100,00 % |
Jahr | Zug | Entwickler | Prüfen | ALLE | ||||
---|---|---|---|---|---|---|---|---|
2014 | 65.976 | 16,49 % | 8.270 | 16,54 % | 8.112 | 16,22 % | 82.358 | 16,47 % |
2015 | 77.879 | 19,47 % | 9.617 | 19,23 % | 9.700 | 19,40 % | 97.196 | 19,44 % |
2016 | 87.006 | 21,75 % | 10.970 | 21,94 % | 10.990 | 21,98 % | 108.966 | 21,79 % |
2017 | 91.583 | 22,90 % | 11.623 | 23,25 % | 11.464 | 22,93 % | 114.670 | 22,93 % |
2018 | 77.556 | 19,39 % | 9.520 | 19,04 % | 9.734 | 19,47 % | 96.810 | 19,36 % |
Gesamt | 400.000 | 100,00 % | 50.000 | 100,00 % | 50.000 | 100,00 % | 500.000 | 100,00 % |
Datensatz | #Seiten | #Einheiten | Bildbasiert? | Textbasiert? | Feinkörnig? | Erweiterbar? |
---|---|---|---|---|---|---|
Artikelregionen | 100 | 9 | ✔ | ✘ | ✔ | ✘ |
GROTOAP2 | 119.334 | 22 | ✔ | ✘ | ✘ | ✘ |
PubLayNet | 364.232 | 5 | ✔ | ✘ | ✔ | ✘ |
TableBank | 417.234 | 1 | ✔ | ✘ | ✔ | ✔ |
DocBank | 500.000 | 12 | ✔ | ✔ | ✔ | ✔ |
Da der Datensatz vollständig auf Token-Ebene mit Anmerkungen versehen wurde, betrachten wir die Aufgabe zur Analyse des Dokumentlayouts als eine Aufgabe zur textbasierten Sequenzkennzeichnung.
Unter dieser Einstellung bewerten wir drei repräsentative vorab trainierte Sprachmodelle auf unserem Datensatz, darunter BERT, RoBERTa und LayoutLM, um die Wirksamkeit von DocBank zu validieren.
Um die Leistung der Modelle aus verschiedenen Modalitäten auf DocBank zu überprüfen, trainieren wir das Faster R-CNN-Modell auf dem Objekterkennungsformat von DocBank und vereinheitlichen seine Ausgabe mit den auszuwertenden Sequenzkennzeichnungsmodellen.
Da es sich bei den Eingaben unseres Modells um serialisierte 2D-Dokumente handelt, ist die typische BIO-Tagging-Auswertung für unsere Aufgabe nicht geeignet. Die Token jeder semantischen Einheit können in der Eingabesequenz diskontinuierlich verteilt sein.
In diesem Fall haben wir eine neue Metrik vorgeschlagen, insbesondere für textbasierte Methoden zur Analyse des Dokumentlayouts. Für jede Art semantischer Dokumentstruktur haben wir ihre Metriken individuell berechnet. Die Definition lautet wie folgt:
Unsere Basislinien von BERT und RoBERTa basieren auf den HuggingFace-Transformern, während die LayoutLM-Basislinien mit der Codebasis im offiziellen Repository von LayoutLM implementiert werden. Wir haben 8 V100-GPUs mit einer Stapelgröße von 10 pro GPU verwendet. Die Feinabstimmung einer Epoche auf den 400.000 Dokumentseiten dauert 5 Stunden. Wir haben die Tokenizer BERT und RoBERTa verwendet, um die Trainingsbeispiele zu tokenisieren, und das Modell mit AdamW optimiert. Die anfängliche Lernrate des Optimierers beträgt 5e-5. Wir teilen die Daten in eine maximale Blockgröße von N=512 auf. Wir verwenden Detectron2, um das Faster R-CNN-Modell auf DocBank zu trainieren. Wir verwenden den Faster R-CNN-Algorithmus mit ResNeXt-101 als Backbone-Netzwerkarchitektur, wobei die Parameter im ImageNet-Datensatz vorab trainiert werden.
Modelle | Abstrakt | Autor | Untertitel | Gleichung | Figur | Fußzeile | Liste | Absatz | Referenz | Abschnitt | Tisch | Titel | Makrodurchschnitt |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Bert-Basis | 0,9294 | 0,8484 | 0,8629 | 0,8152 | 1,0000 | 0,7805 | 0,7133 | 0,9619 | 0,9310 | 0,9081 | 0,8296 | 0,9442 | 0,8770 |
Roberta-Basis | 0,9288 | 0,8618 | 0,8944 | 0,8248 | 1,0000 | 0,8014 | 0,7353 | 0,9646 | 0,9341 | 0,9337 | 0,8389 | 0,9511 | 0,8891 |
layoutlm-base | 0,9816 | 0,8595 | 0,9597 | 0,8947 | 1,0000 | 0,8957 | 0,8948 | 0,9788 | 0,9338 | 0,9598 | 0,8633 | 0,9579 | 0,9316 |
Bert-groß | 0,9286 | 0,8577 | 0,8650 | 0,8177 | 1,0000 | 0,7814 | 0,6960 | 0,9619 | 0,9284 | 0,9065 | 0,8320 | 0,9430 | 0,8765 |
Roberta-groß | 0,9479 | 0,8724 | 0,9081 | 0,8370 | 1,0000 | 0,8392 | 0,7451 | 0,9665 | 0,9334 | 0,9407 | 0,8494 | 0,9461 | 0,8988 |
layoutlm-large | 0,9784 | 0,8783 | 0,9556 | 0,8974 | 1,0000 | 0,9146 | 0,9004 | 0,9790 | 0,9332 | 0,9596 | 0,8679 | 0,9552 | 0,9350 |
X101 | 0,9717 | 0,8227 | 0,9435 | 0,8938 | 0,8812 | 0,9029 | 0,9051 | 0,9682 | 0,8798 | 0,9412 | 0,8353 | 0,9158 | 0,9051 |
X101 & Layoutlm-Basis | 0,9815 | 0,8907 | 0,9669 | 0,9430 | 0,9990 | 0,9292 | 0,9300 | 0,9843 | 0,9437 | 0,9664 | 0,8818 | 0,9575 | 0,9478 |
X101 & Layoutlm-groß | 0,9802 | 0,8964 | 0,9666 | 0,9440 | 0,9994 | 0,9352 | 0,9293 | 0,9844 | 0,9430 | 0,9670 | 0,8875 | 0,9531 | 0,9488 |
Wir bewerten sechs Modelle auf dem Testset von DocBank. Wir stellen fest, dass LayoutLM die höchsten Bewertungen für die Beschriftungen {Zusammenfassung, Autor, Bildunterschrift, Gleichung, Abbildung, Fußzeile, Liste, Absatz, Abschnitt, Tabelle, Titel} erhält. Das RoBERTa-Modell erzielt die beste Leistung auf dem „Referenz“-Label, aber der Abstand zum LayoutLM ist sehr gering. Dies weist darauf hin, dass die LayoutLM-Architektur bei der Analyse des Dokumentlayouts deutlich besser ist als die BERT- und RoBERTa-Architektur.
Wir evaluieren auch das ResNeXt-101-Modell und zwei Ensemble-Modelle, die ResNeXt-101 und LayoutLM kombinieren. Die Ausgabe des ResNeXt-101-Modells sind die Begrenzungsrahmen semantischer Strukturen. Um ihre Ausgaben zu vereinheitlichen, markieren wir die Token innerhalb jedes Begrenzungsrahmens mit der Beschriftung des entsprechenden Begrenzungsrahmens. Danach berechnen wir die Metriken gemäß der obigen Gleichung.
Die trainierten Modelle stehen im DocBank Model Zoo zum Download bereit.
Wir stellen ein Skript zum Konvertieren von PDF-Dateien in Daten im DocBank-Format bereit. Sie können das PDF-Verarbeitungsskript pdf_process.py im Skriptverzeichnis ausführen. Möglicherweise müssen Sie einige Abhängigkeiten dieses Skripts über das Pip-Paketinstallationsprogramm installieren.
CD-Skripte python pdf_process.py --data_dir /path/to/pdf/directory --output_dir /path/to/data/output/directory
**Bitte verteilen Sie unsere Daten NICHT weiter.**
Wenn Sie das Korpus in veröffentlichten Arbeiten verwenden, zitieren Sie es bitte unter Bezugnahme auf den Abschnitt „Aufsatz und Zitat“.
Wir stellen 100 Beispiele zur Vorschau sowie die Indexdateien der Trainings-, Validierungs- und Testsätze im Verzeichnis indexed_files
bereit.
In dieser Arbeit normalisieren wir alle Begrenzungsrahmen anhand der Größe der PDF-Seiten und skalieren jeden Wert auf einen Bereich von 0 bis 1000, um ihn an verschiedene Dokumentlayouts anzupassen.
Die Anmerkungen und Originaldokumentbilder des DocBank-Datensatzes können von HuggingFace heruntergeladen werden .
Minghao Li, Yiheng Xu, Lei Cui, Shaohan Huang, Furu Wei, Zhoujun Li, Ming Zhou
https://arxiv.org/abs/2006.01038
@misc{li2020docbank, title={DocBank: A Benchmark Dataset for Document Layout Analysis}, author={Minghao Li and Yiheng Xu and Lei Cui and Shaohan Huang and Furu Wei and Zhoujun Li and Ming Zhou}, year={2020}, eprint={2006.01038}, archivePrefix={arXiv}, primaryClass={cs.CL} }