DocBank est un nouvel ensemble de données à grande échelle construit en utilisant une approche de supervision faible. Il permet aux modèles d'intégrer à la fois les informations textuelles et de mise en page pour les tâches en aval. L'ensemble de données DocBank actuel comprend au total 500 000 pages de document, dont 400 000 pour la formation, 50 000 pour la validation et 50 000 pour les tests.
Nous avons téléchargé les ensembles de données sur HuggingFace.
Nous mettons à jour la licence vers Apache-2.0.
L'annotation au format MSCOCO peut être téléchargée à partir de la page d'accueil de l'ensemble de données DocBank.
Le modèle ResNeXt-101 a été ajouté au zoo modèle.
Notre article a été accepté dans COLING2020 et l'article en version prête pour l'appareil photo a été mis à jour sur arXiv.com
Nous fournissons un chargeur d'ensemble de données nommé DocBankLoader et il peut également convertir DocBank au format des modèles de détection d'objets.
DocBank est une extension naturelle de l'ensemble de données TableBank (repo, papier)
LayoutLM (repo, paper) est une méthode de pré-formation efficace du texte et de la mise en page et archive le résultat SOTA sur DocBank
Pour les tâches d'analyse de la mise en page de documents, il existe certains ensembles de données de mise en page de documents basés sur des images, tandis que la plupart d'entre eux sont conçus pour les approches de vision par ordinateur et sont difficiles à appliquer aux méthodes de PNL. De plus, les ensembles de données basés sur des images incluent principalement les images de page et les cadres de délimitation de grandes structures sémantiques, qui ne sont pas des annotations fines au niveau des jetons. De plus, produire un agencement de blocs de texte au niveau des jetons, étiquetés par l'homme et à granularité fine, prend également beaucoup de temps et de main d'œuvre. Par conséquent, il est essentiel de tirer parti d’une supervision faible pour obtenir des documents étiquetés à grain fin avec un minimum d’efforts, tout en permettant aux données d’être facilement appliquées à toutes les approches de PNL et de vision par ordinateur.
À cette fin, nous construisons l'ensemble de données DocBank, une référence au niveau du document avec des annotations fines au niveau des jetons pour l'analyse de la mise en page. Distincte des ensembles de données conventionnels étiquetés par l'homme, notre approche obtient des annotations de haute qualité de manière simple mais efficace avec une faible supervision.
L'ensemble de données DocBank se compose de 500 000 pages de document avec 12 types d'unités sémantiques.
Diviser | Abstrait | Auteur | Légende | Date | Équation | Chiffre | Pied de page | Liste | Paragraphe | Référence | Section | Tableau | Titre | Total |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Former | 25 387 | 25 909 | 106 723 | 6 391 | 161 140 | 90 429 | 38 482 | 44 927 | 398 086 | 44 813 | 180 774 | 19 638 | 21 688 | 400 000 |
6,35% | 6,48% | 26,68% | 1,60% | 40,29% | 22,61% | 9,62% | 11,23% | 99,52% | 11,20% | 45,19% | 4,91% | 5,42% | 100,00% | |
Développeur | 3 164 | 3 286 | 13 443 | 797 | 20 154 | 11 463 | 4 804 | 5 609 | 49 759 | 5 549 | 22 666 | 2 374 | 2 708 | 50 000 |
6,33% | 6,57% | 26,89% | 1,59% | 40,31% | 22,93% | 9,61% | 11,22% | 99,52% | 11,10% | 45,33% | 4,75% | 5,42% | 100,00% | |
Test | 3 176 | 3 277 | 13 476 | 832 | 20 244 | 11 378 | 4 876 | 5 553 | 49 762 | 5 641 | 22 384 | 2 505 | 2 729 | 50 000 |
6,35% | 6,55% | 26,95% | 1,66% | 40,49% | 22,76% | 9,75% | 11,11% | 99,52% | 11,28% | 44,77% | 5,01% | 5,46% | 100,00% | |
Total | 31 727 | 32 472 | 133 642 | 8 020 | 201 538 | 113 270 | 48 162 | 56 089 | 497 607 | 56 003 | 225 824 | 24 517 | 27 125 | 500 000 |
6,35% | 6,49% | 26,73% | 1,60% | 40,31% | 22,65% | 9,63% | 11,22% | 99,52% | 11,20% | 45,16% | 4,90% | 5,43% | 100,00% |
Année | Former | Développeur | Test | TOUS | ||||
---|---|---|---|---|---|---|---|---|
2014 | 65 976 | 16,49% | 8 270 | 16,54% | 8 112 | 16,22% | 82 358 | 16,47% |
2015 | 77 879 | 19,47% | 9 617 | 19,23% | 9 700 | 19,40% | 97 196 | 19,44% |
2016 | 87 006 | 21,75% | 10 970 | 21,94% | 10 990 | 21,98% | 108 966 | 21,79% |
2017 | 91 583 | 22,90% | 11 623 | 23,25% | 11 464 | 22,93% | 114 670 | 22,93% |
2018 | 77 556 | 19,39% | 9 520 | 19,04% | 9 734 | 19,47% | 96 810 | 19,36% |
Total | 400 000 | 100,00% | 50 000 | 100,00% | 50 000 | 100,00% | 500 000 | 100,00% |
Ensemble de données | #Pages | #Unités | Basé sur l’image ? | Basé sur du texte ? | À grain fin ? | Extensible ? |
---|---|---|---|---|---|---|
Régions des articles | 100 | 9 | ✔ | ✘ | ✔ | ✘ |
GROTOAP2 | 119 334 | 22 | ✔ | ✘ | ✘ | ✘ |
PubLayNet | 364 232 | 5 | ✔ | ✘ | ✔ | ✘ |
TableBanque | 417 234 | 1 | ✔ | ✘ | ✔ | ✔ |
DocBank | 500 000 | 12 | ✔ | ✔ | ✔ | ✔ |
Comme l'ensemble de données a été entièrement annoté au niveau du jeton, nous considérons la tâche d'analyse de la mise en page du document comme une tâche d'étiquetage de séquence basée sur du texte.
Dans ce cadre, nous évaluons trois modèles de langage représentatifs pré-entraînés sur notre ensemble de données, notamment BERT, RoBERTa et LayoutLM, pour valider l'efficacité de DocBank.
Pour vérifier les performances des modèles de différentes modalités sur DocBank, nous formons le modèle Faster R-CNN sur le format de détection d'objets de DocBank et unifions sa sortie avec les modèles d'étiquetage de séquence à évaluer.
Comme les entrées de notre modèle sont des documents 2D sérialisés, l’évaluation typique du marquage BIO n’est pas adaptée à notre tâche. Les jetons de chaque unité sémantique peuvent être distribués de manière discontinue dans la séquence d'entrée.
Dans ce cas, nous avons proposé une nouvelle métrique, notamment pour les méthodes d’analyse de la mise en page de documents basées sur du texte. Pour chaque type de structure sémantique de document, nous avons calculé leurs métriques individuellement. La définition est la suivante :
Nos lignes de base de BERT et RoBERTa sont construites sur les transformateurs de HuggingFace tandis que les lignes de base de LayoutLM sont implémentées avec la base de code dans le référentiel officiel de LayoutLM. Nous avons utilisé 8 GPU V100 avec une taille de lot de 10 par GPU. Il faut 5 heures pour affiner 1 époque sur les 400 000 pages du document. Nous avons utilisé les tokeniseurs BERT et RoBERTa pour tokeniser les échantillons de formation et optimisé le modèle avec AdamW. Le taux d'apprentissage initial de l'optimiseur est de 5e-5. Nous divisons les données en une taille de bloc maximale de N=512. Nous utilisons le Detectron2 pour entraîner le modèle Faster R-CNN sur DocBank. Nous utilisons l'algorithme Faster R-CNN avec le ResNeXt-101 comme architecture de réseau fédérateur, où les paramètres sont pré-entraînés sur l'ensemble de données ImageNet.
Modèles | Abstrait | Auteur | Légende | Équation | Chiffre | Pied de page | Liste | Paragraphe | Référence | Section | Tableau | Titre | Moyenne macro |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
bert-base | 0,9294 | 0,8484 | 0,8629 | 0,8152 | 1.0000 | 0,7805 | 0,7133 | 0,9619 | 0,9310 | 0,9081 | 0,8296 | 0,9442 | 0,8770 |
roberta-base | 0,9288 | 0,8618 | 0,8944 | 0,8248 | 1.0000 | 0,8014 | 0,7353 | 0,9646 | 0,9341 | 0,9337 | 0,8389 | 0,9511 | 0,8891 |
mise en pagelm-base | 0,9816 | 0,8595 | 0,9597 | 0,8947 | 1.0000 | 0,8957 | 0,8948 | 0,9788 | 0,9338 | 0,9598 | 0,8633 | 0,9579 | 0,9316 |
bert-large | 0,9286 | 0,8577 | 0,8650 | 0,8177 | 1.0000 | 0,7814 | 0,6960 | 0,9619 | 0,9284 | 0,9065 | 0,8320 | 0,9430 | 0,8765 |
roberta-large | 0,9479 | 0,8724 | 0,9081 | 0,8370 | 1.0000 | 0,8392 | 0,7451 | 0,9665 | 0,9334 | 0,9407 | 0,8494 | 0,9461 | 0,8988 |
layoutlm-large | 0,9784 | 0,8783 | 0,9556 | 0,8974 | 1.0000 | 0,9146 | 0,9004 | 0,9790 | 0,9332 | 0,9596 | 0,8679 | 0,9552 | 0,9350 |
X101 | 0,9717 | 0,8227 | 0,9435 | 0,8938 | 0,8812 | 0,9029 | 0,9051 | 0,9682 | 0,8798 | 0,9412 | 0,8353 | 0,9158 | 0,9051 |
X101 et layoutlm-base | 0,9815 | 0,8907 | 0,9669 | 0,9430 | 0,9990 | 0,9292 | 0,9300 | 0,9843 | 0,9437 | 0,9664 | 0,8818 | 0,9575 | 0,9478 |
X101 et layoutlm-large | 0,9802 | 0,8964 | 0,9666 | 0,9440 | 0,9994 | 0,9352 | 0,9293 | 0,9844 | 0,9430 | 0,9670 | 0,8875 | 0,9531 | 0,9488 |
Nous évaluons six modèles sur l'ensemble de test de DocBank. Nous remarquons que le LayoutLM obtient les scores les plus élevés sur les étiquettes {résumé, auteur, légende, équation, figure, pied de page, liste, paragraphe, section, tableau, titre}. Le modèle RoBERTa obtient les meilleures performances sur le label « référence » mais l'écart avec le LayoutLM est très faible. Cela indique que l'architecture LayoutLM est nettement meilleure que l'architecture BERT et RoBERTa dans la tâche d'analyse de la mise en page du document.
Nous évaluons également le modèle ResNeXt-101 et deux modèles d'ensemble combinant ResNeXt-101 et LayoutLM. La sortie du modèle ResNeXt-101 est constituée des cadres de délimitation des structures sémantiques. Pour en unifier leurs sorties, nous marquons les jetons à l'intérieur de chaque cadre de délimitation par l'étiquette du cadre de délimitation correspondant. Après cela, nous calculons les métriques en suivant l'équation ci-dessus.
Les modèles formés sont disponibles en téléchargement dans le DocBank Model Zoo.
Nous fournissons un script pour convertir les fichiers PDF au format DocBank. Vous pouvez exécuter le script de traitement PDF pdf_process.py dans le répertoire des scripts. Vous devrez peut-être installer certaines dépendances de ce script via le programme d'installation du package pip.
scripts de CD python pdf_process.py --data_dir /path/to/pdf/directory --output_dir /chemin/vers/données/output/répertoire
**Veuillez NE PAS redistribuer nos données.**
Si vous utilisez le corpus dans des travaux publiés, veuillez le citer en vous référant à la section « Article et citation ».
Nous fournissons 100 exemples pour la prévisualisation ainsi que les fichiers d'index des ensembles de formation, de validation et de test dans le répertoire indexed_files
.
Dans ce travail, nous normalisons toutes les zones de délimitation en utilisant la taille des pages PDF et mettons à l'échelle chaque valeur dans une plage de 0 à 1 000 pour s'adapter à différentes mises en page de documents.
Les annotations et les images des documents originaux de l'ensemble de données DocBank peuvent être téléchargées depuis HuggingFace .
Minghao Li, Yiheng Xu, Lei Cui, Shaohan Huang, Furu Wei, Zhoujun Li, Ming Zhou
https://arxiv.org/abs/2006.01038
@misc{li2020docbank, title={DocBank: A Benchmark Dataset for Document Layout Analysis}, author={Minghao Li and Yiheng Xu and Lei Cui and Shaohan Huang and Furu Wei and Zhoujun Li and Ming Zhou}, year={2020}, eprint={2006.01038}, archivePrefix={arXiv}, primaryClass={cs.CL} }