DocBank es un nuevo conjunto de datos a gran escala que se construye utilizando un enfoque de supervisión débil. Permite que los modelos integren información textual y de diseño para tareas posteriores. El conjunto de datos actual de DocBank incluye en total 500.000 páginas de documentos, de las cuales 400.000 son para capacitación, 50.000 para validación y 50.000 para pruebas.
Hemos subido los conjuntos de datos a HuggingFace.
Actualizamos la licencia a Apache-2.0.
La anotación de formato MSCOCO se puede descargar desde la página de inicio del conjunto de datos de DocBank.
El modelo ResNeXt-101 se ha agregado al Model Zoo.
Nuestro artículo fue aceptado en COLING2020 y la versión preparada para cámara se actualizó en arXiv.com
Proporcionamos un cargador de conjuntos de datos llamado DocBankLoader y también puede convertir DocBank al formato de los modelos de detección de objetos.
DocBank es una extensión natural del conjunto de datos TableBank (repo, papel)
LayoutLM (repositorio, papel) es un método eficaz de preentrenamiento de texto y diseño y archiva el resultado SOTA en DocBank
Para las tareas de análisis de diseño de documentos, ha habido algunos conjuntos de datos de diseño de documentos basados en imágenes, mientras que la mayoría de ellos están diseñados para enfoques de visión por computadora y son difíciles de aplicar a los métodos de PNL. Además, los conjuntos de datos basados en imágenes incluyen principalmente imágenes de páginas y cuadros delimitadores de grandes estructuras semánticas, que no son anotaciones detalladas a nivel de token. Además, también requiere mucho tiempo y trabajo producir una disposición de bloques de texto a nivel de token detallada y etiquetada por humanos. Por lo tanto, es vital aprovechar una supervisión débil para obtener documentos etiquetados detallados con el mínimo esfuerzo y, al mismo tiempo, hacer que los datos se puedan aplicar fácilmente a cualquier enfoque de PNL y visión por computadora.
Con este fin, creamos el conjunto de datos DocBank, un punto de referencia a nivel de documento con anotaciones detalladas a nivel de token para el análisis de diseño. A diferencia de los conjuntos de datos convencionales etiquetados por humanos, nuestro enfoque obtiene anotaciones de alta calidad de una manera simple pero efectiva con una supervisión débil.
El conjunto de datos de DocBank consta de 500.000 páginas de documentos con 12 tipos de unidades semánticas.
Dividir | Abstracto | Autor | Subtítulo | Fecha | Ecuación | Cifra | Pie de página | Lista | Párrafo | Referencia | Sección | Mesa | Título | Total |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Tren | 25.387 | 25,909 | 106.723 | 6.391 | 161,140 | 90.429 | 38.482 | 44.927 | 398.086 | 44.813 | 180.774 | 19.638 | 21.688 | 400.000 |
6,35% | 6,48% | 26,68% | 1,60% | 40,29% | 22,61% | 9,62% | 11,23% | 99,52% | 11,20% | 45,19% | 4,91% | 5,42% | 100.00% | |
desarrollador | 3.164 | 3.286 | 13.443 | 797 | 20.154 | 11.463 | 4.804 | 5.609 | 49.759 | 5.549 | 22.666 | 2,374 | 2,708 | 50.000 |
6,33% | 6,57% | 26,89% | 1,59% | 40,31% | 22,93% | 9,61% | 11,22% | 99,52% | 11,10% | 45,33% | 4,75% | 5,42% | 100.00% | |
Prueba | 3.176 | 3.277 | 13.476 | 832 | 20.244 | 11.378 | 4.876 | 5.553 | 49.762 | 5.641 | 22,384 | 2.505 | 2,729 | 50.000 |
6,35% | 6,55% | 26,95% | 1,66% | 40,49% | 22,76% | 9,75% | 11,11% | 99,52% | 11,28% | 44,77% | 5,01% | 5,46% | 100.00% | |
Total | 31.727 | 32.472 | 133.642 | 8.020 | 201,538 | 113.270 | 48.162 | 56.089 | 497,607 | 56.003 | 225.824 | 24,517 | 27.125 | 500.000 |
6,35% | 6,49% | 26,73% | 1,60% | 40,31% | 22,65% | 9,63% | 11,22% | 99,52% | 11,20% | 45,16% | 4,90% | 5,43% | 100.00% |
Año | Tren | desarrollador | Prueba | TODO | ||||
---|---|---|---|---|---|---|---|---|
2014 | 65.976 | 16,49% | 8.270 | 16,54% | 8.112 | 16,22% | 82.358 | 16,47% |
2015 | 77.879 | 19,47% | 9.617 | 19,23% | 9.700 | 19,40% | 97.196 | 19,44% |
2016 | 87.006 | 21,75% | 10.970 | 21,94% | 10.990 | 21,98% | 108.966 | 21,79% |
2017 | 91.583 | 22,90% | 11.623 | 23,25% | 11.464 | 22,93% | 114.670 | 22,93% |
2018 | 77.556 | 19,39% | 9.520 | 19,04% | 9.734 | 19,47% | 96.810 | 19,36% |
Total | 400.000 | 100.00% | 50.000 | 100.00% | 50.000 | 100.00% | 500.000 | 100.00% |
Conjunto de datos | #Páginas | #Unidades | ¿Basado en imágenes? | ¿Basado en texto? | ¿De grano fino? | ¿Extensible? |
---|---|---|---|---|---|---|
Artículo Regiones | 100 | 9 | ✔ | ✘ | ✔ | ✘ |
GROTOAP2 | 119.334 | 22 | ✔ | ✘ | ✘ | ✘ |
PubLayNet | 364,232 | 5 | ✔ | ✘ | ✔ | ✘ |
banco de mesa | 417,234 | 1 | ✔ | ✘ | ✔ | ✔ |
DocBank | 500.000 | 12 | ✔ | ✔ | ✔ | ✔ |
Como el conjunto de datos fue completamente anotado a nivel de token, consideramos la tarea de análisis del diseño del documento como una tarea de etiquetado de secuencia basada en texto.
En este entorno, evaluamos tres modelos de lenguaje preentrenados representativos en nuestro conjunto de datos, incluidos BERT, RoBERTa y LayoutLM, para validar la eficacia de DocBank.
Para verificar el rendimiento de los modelos de diferentes modalidades en DocBank, entrenamos el modelo Faster R-CNN en el formato de detección de objetos de DocBank y unificamos su salida con los modelos de etiquetado de secuencia a evaluar.
Como las entradas de nuestro modelo son documentos 2-D serializados, la evaluación típica de etiquetado biológico no es adecuada para nuestra tarea. Los tokens de cada unidad semántica pueden distribuirse de forma discontinua en la secuencia de entrada.
En este caso, propusimos una nueva métrica, especialmente para los métodos de análisis de diseño de documentos basados en texto. Para cada tipo de estructura semántica de documento, calculamos sus métricas individualmente. La definición es la siguiente:
Nuestras líneas base de BERT y RoBERTa se basan en los Transformers de HuggingFace, mientras que las líneas base de LayoutLM se implementan con el código base en el repositorio oficial de LayoutLM. Usamos 8 GPU V100 con un tamaño de lote de 10 por GPU. Se necesitan 5 horas para ajustar 1 época en las 400.000 páginas del documento. Usamos los tokenizadores BERT y RoBERTa para tokenizar las muestras de entrenamiento y optimizamos el modelo con AdamW. La tasa de aprendizaje inicial del optimizador es 5e-5. Dividimos los datos en un tamaño de bloque máximo de N = 512. Usamos Detectron2 para entrenar el modelo Faster R-CNN en DocBank. Utilizamos el algoritmo Faster R-CNN con ResNeXt-101 como arquitectura de red troncal, donde los parámetros se entrenan previamente en el conjunto de datos ImageNet.
Modelos | Abstracto | Autor | Subtítulo | Ecuación | Cifra | Pie de página | Lista | Párrafo | Referencia | Sección | Mesa | Título | Promedio macroeconómico |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
base-bert | 0.9294 | 0.8484 | 0.8629 | 0.8152 | 1.0000 | 0.7805 | 0.7133 | 0.9619 | 0.9310 | 0.9081 | 0.8296 | 0.9442 | 0.8770 |
roberta-base | 0.9288 | 0.8618 | 0.8944 | 0.8248 | 1.0000 | 0.8014 | 0,7353 | 0.9646 | 0.9341 | 0.9337 | 0.8389 | 0.9511 | 0.8891 |
base de diseño | 0.9816 | 0.8595 | 0.9597 | 0.8947 | 1.0000 | 0.8957 | 0.8948 | 0.9788 | 0.9338 | 0.9598 | 0.8633 | 0.9579 | 0.9316 |
bert-grande | 0.9286 | 0.8577 | 0,8650 | 0.8177 | 1.0000 | 0.7814 | 0.6960 | 0.9619 | 0.9284 | 0.9065 | 0.8320 | 0.9430 | 0.8765 |
roberta-grande | 0.9479 | 0.8724 | 0.9081 | 0.8370 | 1.0000 | 0.8392 | 0,7451 | 0.9665 | 0.9334 | 0.9407 | 0.8494 | 0.9461 | 0.8988 |
diseñolm-grande | 0.9784 | 0.8783 | 0.9556 | 0.8974 | 1.0000 | 0.9146 | 0.9004 | 0.9790 | 0.9332 | 0.9596 | 0.8679 | 0.9552 | 0.9350 |
X101 | 0.9717 | 0.8227 | 0.9435 | 0.8938 | 0.8812 | 0.9029 | 0.9051 | 0.9682 | 0.8798 | 0.9412 | 0.8353 | 0.9158 | 0.9051 |
X101 y base de diseño | 0.9815 | 0.8907 | 0.9669 | 0.9430 | 0.9990 | 0.9292 | 0.9300 | 0.9843 | 0.9437 | 0.9664 | 0.8818 | 0.9575 | 0.9478 |
X101 y diseño lm-grande | 0.9802 | 0.8964 | 0.9666 | 0.9440 | 0.9994 | 0.9352 | 0.9293 | 0.9844 | 0.9430 | 0.9670 | 0.8875 | 0.9531 | 0.9488 |
Evaluamos seis modelos en el conjunto de pruebas de DocBank. Notamos que LayoutLM obtiene las puntuaciones más altas en las etiquetas {resumen, autor, título, ecuación, figura, pie de página, lista, párrafo, sección, tabla, título}. El modelo RoBERTa obtiene el mejor rendimiento en la etiqueta de "referencia" pero la diferencia con el LayoutLM es muy pequeña. Esto indica que la arquitectura LayoutLM es significativamente mejor que la arquitectura BERT y RoBERTa en la tarea de análisis de diseño de documentos.
También evaluamos el modelo ResNeXt-101 y dos modelos de conjunto que combinan ResNeXt-101 y LayoutLM. El resultado del modelo ResNeXt-101 son los cuadros delimitadores de las estructuras semánticas. Para unificar sus salidas, marcamos los tokens dentro de cada cuadro delimitador por la etiqueta del cuadro delimitador correspondiente. Después de eso, calculamos las métricas siguiendo la ecuación anterior.
Los modelos entrenados están disponibles para descargar en DocBank Model Zoo.
Proporcionamos un script para convertir archivos PDF a datos en formato DocBank. Puede ejecutar el script de procesamiento de PDF pdf_process.py en el directorio de scripts. Es posible que necesites instalar algunas dependencias de este script a través del instalador del paquete pip.
guiones de cd python pdf_process.py --data_dir /ruta/al/pdf/directorio --output_dir /ruta/a/datos/salida/directorio
**Por favor NO redistribuya nuestros datos.**
Si utiliza el corpus en un trabajo publicado, cítelo consultando la sección "Artículos y citas".
Proporcionamos 100 muestras para obtener una vista previa, así como archivos de índice de conjuntos de capacitación, validación y prueba en el directorio indexed_files
.
En este trabajo, normalizamos todos los cuadros delimitadores utilizando el tamaño de las páginas PDF y escalamos cada valor en un rango de 0 a 1000 para que se ajuste a varios diseños de documentos.
Las anotaciones y las imágenes de los documentos originales del conjunto de datos de DocBank se pueden descargar desde HuggingFace .
Minghao Li, Yiheng Xu, Lei Cui, Shaohan Huang, Furu Wei, Zhoujun Li, Ming Zhou
https://arxiv.org/abs/2006.01038
@misc{li2020docbank, title={DocBank: A Benchmark Dataset for Document Layout Analysis}, author={Minghao Li and Yiheng Xu and Lei Cui and Shaohan Huang and Furu Wei and Zhoujun Li and Ming Zhou}, year={2020}, eprint={2006.01038}, archivePrefix={arXiv}, primaryClass={cs.CL} }