O DocBank é um novo conjunto de dados em grande escala construído utilizando uma abordagem de supervisão fraca. Ele permite que os modelos integrem informações textuais e de layout para tarefas posteriores. O conjunto de dados atual do DocBank inclui totalmente 500 mil páginas de documentos, sendo 400 mil para treinamento, 50 mil para validação e 50 mil para teste.
Carregamos os conjuntos de dados no HuggingFace.
Atualizamos a licença para Apache-2.0.
A anotação do formato MSCOCO pode ser baixada na página inicial do conjunto de dados DocBank.
O modelo ResNeXt-101 foi adicionado ao Model Zoo.
Nosso artigo foi aceito no COLING2020 e o artigo da versão pronta para câmera foi atualizado em arXiv.com
Fornecemos um carregador de conjunto de dados chamado DocBankLoader e também pode converter DocBank para o formato dos modelos de detecção de objetos
DocBank é uma extensão natural do conjunto de dados TableBank (repo, paper)
LayoutLM (repo, paper) é um método eficaz de pré-treinamento de texto e layout e arquiva o resultado SOTA no DocBank
Para tarefas de análise de layout de documentos, existem alguns conjuntos de dados de layout de documentos baseados em imagens, embora a maioria deles seja construída para abordagens de visão computacional e sejam difíceis de aplicar aos métodos de PNL. Além disso, os conjuntos de dados baseados em imagens incluem principalmente imagens de páginas e caixas delimitadoras de grandes estruturas semânticas, que não são anotações refinadas em nível de token. Além disso, também é demorado e trabalhoso produzir arranjos de blocos de texto em nível de token, rotulados por humanos e refinados. Portanto, é vital aproveitar a supervisão fraca para obter documentos rotulados de granulação fina com o mínimo de esforço, ao mesmo tempo que faz com que os dados sejam facilmente aplicados a qualquer abordagem de PNL e visão computacional.
Para esse fim, construímos o conjunto de dados DocBank, um benchmark em nível de documento com anotações refinadas em nível de token para análise de layout. Diferente dos conjuntos de dados convencionais rotulados por humanos, nossa abordagem obtém anotações de alta qualidade de forma simples, mas eficaz, com supervisão fraca.
O conjunto de dados DocBank consiste em 500 mil páginas de documentos com 12 tipos de unidades semânticas.
Dividir | Resumo | Autor | Rubrica | Data | Equação | Figura | Rodapé | Lista | Parágrafo | Referência | Seção | Mesa | Título | Total |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Trem | 25.387 | 25.909 | 106.723 | 6.391 | 161.140 | 90.429 | 38.482 | 44.927 | 398.086 | 44.813 | 180.774 | 19.638 | 21.688 | 400.000 |
6,35% | 6,48% | 26,68% | 1,60% | 40,29% | 22,61% | 9,62% | 11,23% | 99,52% | 11,20% | 45,19% | 4,91% | 5,42% | 100,00% | |
Desenvolvedor | 3.164 | 3.286 | 13.443 | 797 | 20.154 | 11.463 | 4.804 | 5.609 | 49.759 | 5.549 | 22.666 | 2.374 | 2.708 | 50.000 |
6,33% | 6,57% | 26,89% | 1,59% | 40,31% | 22,93% | 9,61% | 11,22% | 99,52% | 11,10% | 45,33% | 4,75% | 5,42% | 100,00% | |
Teste | 3.176 | 3.277 | 13.476 | 832 | 20.244 | 11.378 | 4.876 | 5.553 | 49.762 | 5.641 | 22.384 | 2.505 | 2.729 | 50.000 |
6,35% | 6,55% | 26,95% | 1,66% | 40,49% | 22,76% | 9,75% | 11,11% | 99,52% | 11,28% | 44,77% | 5,01% | 5,46% | 100,00% | |
Total | 31.727 | 32.472 | 133.642 | 8.020 | 201.538 | 113.270 | 48.162 | 56.089 | 497.607 | 56.003 | 225.824 | 24.517 | 27.125 | 500.000 |
6,35% | 6,49% | 26,73% | 1,60% | 40,31% | 22,65% | 9,63% | 11,22% | 99,52% | 11,20% | 45,16% | 4,90% | 5,43% | 100,00% |
Ano | Trem | Desenvolvedor | Teste | TODOS | ||||
---|---|---|---|---|---|---|---|---|
2014 | 65.976 | 16,49% | 8.270 | 16,54% | 8.112 | 16,22% | 82.358 | 16,47% |
2015 | 77.879 | 19,47% | 9.617 | 19,23% | 9.700 | 19,40% | 97.196 | 19,44% |
2016 | 87.006 | 21,75% | 10.970 | 21,94% | 10.990 | 21,98% | 108.966 | 21,79% |
2017 | 91.583 | 22,90% | 11.623 | 23,25% | 11.464 | 22,93% | 114.670 | 22,93% |
2018 | 77.556 | 19,39% | 9.520 | 19,04% | 9.734 | 19,47% | 96.810 | 19,36% |
Total | 400.000 | 100,00% | 50.000 | 100,00% | 50.000 | 100,00% | 500.000 | 100,00% |
Conjunto de dados | #Páginas | #Unidades | Baseado em imagem? | Baseado em texto? | De granulação fina? | Extensível? |
---|---|---|---|---|---|---|
Regiões do artigo | 100 | 9 | ✔ | ✘ | ✔ | ✘ |
GROTOAP2 | 119.334 | 22 | ✔ | ✘ | ✘ | ✘ |
PubLayNet | 364.232 | 5 | ✔ | ✘ | ✔ | ✘ |
Banco de Mesa | 417.234 | 1 | ✔ | ✘ | ✔ | ✔ |
DocBank | 500.000 | 12 | ✔ | ✔ | ✔ | ✔ |
Como o conjunto de dados foi totalmente anotado em nível de token, consideramos a tarefa de análise de layout do documento como uma tarefa de rotulagem de sequência baseada em texto.
Sob esta configuração, avaliamos três modelos de linguagem pré-treinados representativos em nosso conjunto de dados, incluindo BERT, RoBERTa e LayoutLM para validar a eficácia do DocBank.
Para verificar o desempenho dos modelos de diferentes modalidades no DocBank, treinamos o modelo Faster R-CNN no formato de detecção de objetos do DocBank e unificamos sua saída com os modelos de rotulagem de sequência a serem avaliados.
Como as entradas do nosso modelo são documentos 2-D serializados, a avaliação típica da marcação BIO não é adequada para a nossa tarefa. Os tokens de cada unidade semântica podem ser distribuídos de forma descontínua na sequência de entrada.
Neste caso, propusemos uma nova métrica, especialmente para métodos de análise de layout de documentos baseados em texto. Para cada tipo de estrutura semântica de documento, calculamos suas métricas individualmente. A definição é a seguinte:
Nossas linhas de base de BERT e RoBERTa são construídas sobre os Transformers do HuggingFace, enquanto as linhas de base do LayoutLM são implementadas com a base de código no repositório oficial do LayoutLM. Usamos 8 GPUs V100 com tamanho de lote de 10 por GPU. Demora 5 horas para ajustar 1 época nas 400 mil páginas do documento. Usamos os tokenizers BERT e RoBERTa para tokenizar as amostras de treinamento e otimizamos o modelo com AdamW. A taxa de aprendizagem inicial do otimizador é 5e-5. Dividimos os dados em um tamanho máximo de bloco de N=512. Usamos o Detectron2 para treinar o modelo Faster R-CNN no DocBank. Usamos o algoritmo Faster R-CNN com o ResNeXt-101 como arquitetura de rede backbone, onde os parâmetros são pré-treinados no conjunto de dados ImageNet.
Modelos | Resumo | Autor | Rubrica | Equação | Figura | Rodapé | Lista | Parágrafo | Referência | Seção | Mesa | Título | Média macro |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
base bert | 0,9294 | 0,8484 | 0,8629 | 0,8152 | 1,0000 | 0,7805 | 0,7133 | 0,9619 | 0,9310 | 0,9081 | 0,8296 | 0,9442 | 0,8770 |
Roberta-base | 0,9288 | 0,8618 | 0,8944 | 0,8248 | 1,0000 | 0,8014 | 0,7353 | 0,9646 | 0,9341 | 0,9337 | 0,8389 | 0,9511 | 0,8891 |
layoutlm-base | 0,9816 | 0,8595 | 0,9597 | 0,8947 | 1,0000 | 0,8957 | 0,8948 | 0,9788 | 0,9338 | 0,9598 | 0,8633 | 0,9579 | 0,9316 |
bert-grande | 0,9286 | 0,8577 | 0,8650 | 0,8177 | 1,0000 | 0,7814 | 0,6960 | 0,9619 | 0,9284 | 0,9065 | 0,8320 | 0,9430 | 0,8765 |
Roberta-grande | 0,9479 | 0,8724 | 0,9081 | 0,8370 | 1,0000 | 0,8392 | 0,7451 | 0,9665 | 0,9334 | 0,9407 | 0,8494 | 0,9461 | 0,8988 |
layoutlm-grande | 0,9784 | 0,8783 | 0,9556 | 0,8974 | 1,0000 | 0,9146 | 0,9004 | 0,9790 | 0,9332 | 0,9596 | 0,8679 | 0,9552 | 0,9350 |
X101 | 0,9717 | 0,8227 | 0,9435 | 0,8938 | 0,8812 | 0,9029 | 0,9051 | 0,9682 | 0,8798 | 0,9412 | 0,8353 | 0,9158 | 0,9051 |
X101 e layoutlm-base | 0,9815 | 0,8907 | 0,9669 | 0,9430 | 0,9990 | 0,9292 | 0,9300 | 0,9843 | 0,9437 | 0,9664 | 0,8818 | 0,9575 | 0,9478 |
X101 e layoutlm-grande | 0,9802 | 0,8964 | 0,9666 | 0,9440 | 0,9994 | 0,9352 | 0,9293 | 0,9844 | 0,9430 | 0,9670 | 0,8875 | 0,9531 | 0,9488 |
Avaliamos seis modelos no conjunto de teste do DocBank. Notamos que o LayoutLM obtém as pontuações mais altas nos rótulos {resumo, autor, legenda, equação, figura, rodapé, lista, parágrafo, seção, tabela, título}. O modelo RoBERTa obtém o melhor desempenho no rótulo de “referência”, mas a diferença com o LayoutLM é muito pequena. Isso indica que a arquitetura LayoutLM é significativamente melhor que a arquitetura BERT e RoBERTa na tarefa de análise de layout de documento.
Também avaliamos o modelo ResNeXt-101 e dois modelos de conjunto combinando ResNeXt-101 e LayoutLM. A saída do modelo ResNeXt-101 são as caixas delimitadoras das estruturas semânticas. Para unificar as saídas deles, marcamos os tokens dentro de cada caixa delimitadora pelo rótulo da caixa delimitadora correspondente. Depois disso, calculamos as métricas seguindo a equação acima.
Os modelos treinados estão disponíveis para download no DocBank Model Zoo.
Fornecemos um script para converter arquivos PDF para dados no formato DocBank. Você pode executar o script de processamento de PDF pdf_process.py no diretório de scripts. Pode ser necessário instalar algumas dependências deste script por meio do instalador do pacote pip.
scripts de CD python pdf_process.py --data_dir /caminho/para/pdf/diretório --output_dir /caminho/para/dados/saída/diretório
**Por favor, NÃO redistribua nossos dados.**
Caso utilize o corpus em trabalho publicado, cite-o referindo-se à Seção “Artigo e Citação”.
Fornecemos 100 amostras para visualização, bem como os arquivos de índice de conjuntos de treinamento, validação e teste no diretório indexed_files
.
Neste trabalho, normalizamos todas as caixas delimitadoras usando o tamanho das páginas PDF e dimensionamos cada valor em um intervalo de 0 a 1000 para caber em vários layouts de documentos.
As anotações e imagens originais dos documentos do conjunto de dados DocBank podem ser baixadas em HuggingFace .
Minghao Li, Yiheng Xu, Lei Cui, Shaohan Huang, Furu Wei, Zhoujun Li, Ming Zhou
https://arxiv.org/abs/2006.01038
@misc{li2020docbank, title={DocBank: A Benchmark Dataset for Document Layout Analysis}, author={Minghao Li and Yiheng Xu and Lei Cui and Shaohan Huang and Furu Wei and Zhoujun Li and Ming Zhou}, year={2020}, eprint={2006.01038}, archivePrefix={arXiv}, primaryClass={cs.CL} }