DocBank는 약한 감독 접근 방식을 사용하여 구축된 새로운 대규모 데이터 세트입니다. 이를 통해 모델은 다운스트림 작업에 대한 텍스트 및 레이아웃 정보를 모두 통합할 수 있습니다. 현재 DocBank 데이터세트에는 총 500,000개의 문서 페이지가 포함되어 있으며, 여기서 400,000은 훈련용, 50,000은 검증용, 50,000은 테스트용입니다.
HuggingFace에 데이터세트를 업로드했습니다.
라이센스를 Apache-2.0으로 업데이트합니다.
MSCOCO 형식 주석은 DocBank 데이터 세트 홈페이지에서 다운로드할 수 있습니다.
ResNeXt-101 모델이 Model Zoo에 추가되었습니다.
우리 논문은 COLING2020에 승인되었으며 카메라 지원 버전 논문이 arXiv.com에 업데이트되었습니다.
우리는 DocBankLoader라는 데이터 세트 로더를 제공하며 DocBank를 객체 감지 모델 형식으로 변환할 수도 있습니다.
DocBank는 TableBank(repo, paper) 데이터세트의 자연스러운 확장입니다.
LayoutLM(repo, paper)은 텍스트 및 레이아웃의 효과적인 사전 학습 방법이며 SOTA 결과를 DocBank에 보관합니다.
문서 레이아웃 분석 작업의 경우 이미지 기반의 문서 레이아웃 데이터 세트가 일부 있었지만, 대부분 컴퓨터 비전 접근 방식을 위해 구축되어 NLP 방법에는 적용하기 어렵습니다. 또한 이미지 기반 데이터 세트에는 세밀한 토큰 수준 주석이 아닌 페이지 이미지와 대규모 의미 구조의 경계 상자가 주로 포함됩니다. 더욱이, 사람이 라벨을 붙이고 세분화된 토큰 수준의 텍스트 블록 배열을 생성하는 것도 시간이 많이 걸리고 노동 집약적입니다. 따라서 최소한의 노력으로 세분화된 레이블이 지정된 문서를 얻으려면 약한 감독을 활용하는 동시에 데이터를 모든 NLP 및 컴퓨터 비전 접근 방식에 쉽게 적용할 수 있도록 만드는 것이 중요합니다.
이를 위해 우리는 레이아웃 분석을 위한 세밀한 토큰 수준 주석을 갖춘 문서 수준 벤치마크인 DocBank 데이터 세트를 구축했습니다. 기존의 사람이 라벨을 붙인 데이터 세트와는 달리, 우리의 접근 방식은 약한 감독을 통해 간단하면서도 효과적인 방법으로 고품질 주석을 얻습니다.
DocBank 데이터세트는 12가지 유형의 의미 단위를 갖춘 500K 문서 페이지로 구성됩니다.
나뉘다 | 추상적인 | 작가 | 표제 | 날짜 | 방정식 | 수치 | 보행인 | 목록 | 절 | 참조 | 부분 | 테이블 | 제목 | 총 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
기차 | 25,387 | 25,909 | 106,723 | 6,391 | 161,140 | 90,429 | 38,482 | 44,927 | 398,086 | 44,813 | 180,774 | 19,638 | 21,688 | 400,000 |
6.35% | 6.48% | 26.68% | 1.60% | 40.29% | 22.61% | 9.62% | 11.23% | 99.52% | 11.20% | 45.19% | 4.91% | 5.42% | 100.00% | |
데브 | 3,164 | 3,286 | 13,443 | 797 | 20,154 | 11,463 | 4,804 | 5,609 | 49,759 | 5,549 | 22,666 | 2,374 | 2,708 | 50,000 |
6.33% | 6.57% | 26.89% | 1.59% | 40.31% | 22.93% | 9.61% | 11.22% | 99.52% | 11.10% | 45.33% | 4.75% | 5.42% | 100.00% | |
시험 | 3,176 | 3,277 | 13,476 | 832 | 20,244 | 11,378 | 4,876 | 5,553 | 49,762 | 5,641 | 22,384 | 2,505 | 2,729 | 50,000 |
6.35% | 6.55% | 26.95% | 1.66% | 40.49% | 22.76% | 9.75% | 11.11% | 99.52% | 11.28% | 44.77% | 5.01% | 5.46% | 100.00% | |
총 | 31,727 | 32,472 | 133,642 | 8,020 | 201,538 | 113,270 | 48,162 | 56,089 | 497,607 | 56,003 | 225,824 | 24,517 | 27,125 | 500,000 |
6.35% | 6.49% | 26.73% | 1.60% | 40.31% | 22.65% | 9.63% | 11.22% | 99.52% | 11.20% | 45.16% | 4.90% | 5.43% | 100.00% |
년도 | 기차 | 데브 | 시험 | 모두 | ||||
---|---|---|---|---|---|---|---|---|
2014년 | 65,976 | 16.49% | 8,270 | 16.54% | 8,112 | 16.22% | 82,358 | 16.47% |
2015년 | 77,879 | 19.47% | 9,617 | 19.23% | 9,700 | 19.40% | 97,196 | 19.44% |
2016년 | 87,006 | 21.75% | 10,970 | 21.94% | 10,990 | 21.98% | 108,966 | 21.79% |
2017년 | 91,583 | 22.90% | 11,623 | 23.25% | 11,464 | 22.93% | 114,670 | 22.93% |
2018 | 77,556 | 19.39% | 9,520 | 19.04% | 9,734 | 19.47% | 96,810 | 19.36% |
총 | 400,000 | 100.00% | 50,000 | 100.00% | 50,000 | 100.00% | 500,000 | 100.00% |
데이터세트 | #페이지 | #단위 | 이미지 기반? | 텍스트 기반? | 세밀하게? | 확장 가능? |
---|---|---|---|---|---|---|
기사 지역 | 100 | 9 | ✔ | ✘ | ✔ | ✘ |
그로토AP2 | 119,334 | 22 | ✔ | ✘ | ✘ | ✘ |
PubLayNet | 364,232 | 5 | ✔ | ✘ | ✔ | ✘ |
테이블뱅크 | 417,234 | 1 | ✔ | ✘ | ✔ | ✔ |
DocBank | 500,000 | 12 | ✔ | ✔ | ✔ | ✔ |
데이터 세트가 토큰 수준에서 완전히 주석 처리되었으므로 문서 레이아웃 분석 작업을 텍스트 기반 시퀀스 레이블 지정 작업으로 간주합니다.
이 설정에서 우리는 DocBank의 효율성을 검증하기 위해 BERT, RoBERTa 및 LayoutLM을 포함한 데이터 세트에 대한 세 가지 대표적인 사전 훈련된 언어 모델을 평가합니다.
DocBank에서 다양한 양식의 모델 성능을 검증하기 위해 DocBank의 객체 감지 형식에 대해 Faster R-CNN 모델을 훈련하고 해당 출력을 시퀀스 라벨링 모델과 통합하여 평가합니다.
우리 모델의 입력은 직렬화된 2D 문서이므로 일반적인 BIO 태깅 평가는 우리 작업에 적합하지 않습니다. 각 의미 단위의 토큰은 입력 시퀀스에서 불연속적으로 분포할 수 있습니다.
이 경우 특히 텍스트 기반 문서 레이아웃 분석 방법에 대한 새로운 측정 기준을 제안했습니다. 각 종류의 문서 의미 구조에 대해 해당 측정항목을 개별적으로 계산했습니다. 정의는 다음과 같습니다:
BERT 및 RoBERTa의 기준선은 HuggingFace의 Transformers를 기반으로 구축되었으며 LayoutLM 기준선은 LayoutLM의 공식 저장소에 있는 코드베이스로 구현되었습니다. 우리는 GPU당 배치 크기가 10인 V100 GPU 8개를 사용했습니다. 400K 문서 페이지에서 1시대를 미세 조정하는 데 5시간이 걸립니다. 우리는 BERT 및 RoBERTa 토크나이저를 사용하여 훈련 샘플을 토큰화하고 AdamW로 모델을 최적화했습니다. 옵티마이저의 초기 학습률은 5e-5입니다. 데이터를 N=512의 최대 블록 크기로 분할했습니다. 우리는 Detectron2를 사용하여 DocBank에서 Faster R-CNN 모델을 훈련합니다. ResNeXt-101과 함께 Faster R-CNN 알고리즘을 백본 네트워크 아키텍처로 사용합니다. 여기서 매개변수는 ImageNet 데이터세트에 대해 사전 훈련됩니다.
모델 | 추상적인 | 작가 | 표제 | 방정식 | 수치 | 보행인 | 목록 | 절 | 참조 | 부분 | 테이블 | 제목 | 거시 평균 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
버트베이스 | 0.9294 | 0.8484 | 0.8629 | 0.8152 | 1.0000 | 0.7805 | 0.7133 | 0.9619 | 0.9310 | 0.9081 | 0.8296 | 0.9442 | 0.8770 |
로버타 베이스 | 0.9288 | 0.8618 | 0.8944 | 0.8248 | 1.0000 | 0.8014 | 0.7353 | 0.9646 | 0.9341 | 0.9337 | 0.8389 | 0.9511 | 0.8891 |
레이아웃LM 베이스 | 0.9816 | 0.8595 | 0.9597 | 0.8947 | 1.0000 | 0.8957 | 0.8948 | 0.9788 | 0.9338 | 0.9598 | 0.8633 | 0.9579 | 0.9316 |
버트-라지 | 0.9286 | 0.8577 | 0.8650 | 0.8177 | 1.0000 | 0.7814 | 0.6960 | 0.9619 | 0.9284 | 0.9065 | 0.8320 | 0.9430 | 0.8765 |
로버타-대형 | 0.9479 | 0.8724 | 0.9081 | 0.8370 | 1.0000 | 0.8392 | 0.7451 | 0.9665 | 0.9334 | 0.9407 | 0.8494 | 0.9461 | 0.8988 |
레이아웃LM-대형 | 0.9784 | 0.8783 | 0.9556 | 0.8974 | 1.0000 | 0.9146 | 0.9004 | 0.9790 | 0.9332 | 0.9596 | 0.8679 | 0.9552 | 0.9350 |
X101 | 0.9717 | 0.8227 | 0.9435 | 0.8938 | 0.8812 | 0.9029 | 0.9051 | 0.9682 | 0.8798 | 0.9412 | 0.8353 | 0.9158 | 0.9051 |
X101 및 레이아웃LM 베이스 | 0.9815 | 0.8907 | 0.9669 | 0.9430 | 0.9990 | 0.9292 | 0.9300 | 0.9843 | 0.9437 | 0.9664 | 0.8818 | 0.9575 | 0.9478 |
X101 및 레이아웃lm-대형 | 0.9802 | 0.8964 | 0.9666 | 0.9440 | 0.9994 | 0.9352 | 0.9293 | 0.9844 | 0.9430 | 0.9670 | 0.8875 | 0.9531 | 0.9488 |
우리는 DocBank의 테스트 세트에서 6개의 모델을 평가합니다. LayoutLM은 {초록, 저자, 캡션, 방정식, 그림, 바닥글, 목록, 단락, 섹션, 표, 제목} 레이블에서 가장 높은 점수를 얻는다는 것을 알 수 있습니다. RoBERTa 모델은 "참조" 라벨에서 최고의 성능을 얻지만 LayoutLM과의 격차는 매우 작습니다. 이는 문서 레이아웃 분석 작업에서 LayoutLM 아키텍처가 BERT 및 RoBERTa 아키텍처보다 훨씬 우수함을 나타냅니다.
또한 ResNeXt-101 모델과 ResNeXt-101과 LayoutLM을 결합한 두 개의 앙상블 모델을 평가합니다. ResNeXt-101 모델의 출력은 의미 구조의 경계 상자입니다. 출력을 통합하기 위해 해당 경계 상자의 레이블로 각 경계 상자 내부의 토큰을 표시합니다. 그 후 위의 방정식에 따라 측정 항목을 계산합니다.
훈련된 모델은 DocBank Model Zoo에서 다운로드할 수 있습니다.
PDF 파일을 DocBank 형식 데이터로 변환하는 스크립트를 제공합니다. 스크립트 디렉토리에서 PDF 처리 스크립트 pdf_process.py를 실행할 수 있습니다. pip 패키지 설치 프로그램을 통해 이 스크립트의 일부 종속성을 설치해야 할 수도 있습니다.
CD 스크립트 파이썬 pdf_process.py --data_dir /path/to/pdf/directory --output_dir /path/to/data/output/directory
**우리 데이터를 재배포하지 마십시오.**
출판된 저작물에 코퍼스를 사용하는 경우에는 "논문 및 인용" 섹션을 참조하여 인용하시기 바랍니다.
indexed_files
디렉터리에는 미리보기용 샘플 100개와 훈련, 검증 및 테스트 세트의 인덱스 파일이 제공됩니다.
이 작업에서는 PDF 페이지의 크기를 사용하여 모든 경계 상자를 정규화하고 다양한 문서 레이아웃에 맞게 각 값을 0-1000 범위로 조정합니다.
DocBank 데이터세트의 주석과 원본 문서 사진은 HuggingFace에서 다운로드할 수 있습니다 .
리 밍하오, 쉬이헝, 레이 추이, 황 샤오한, 푸루 웨이, 리 저우준, 밍 저우
https://arxiv.org/abs/2006.01038
@misc{li2020docbank, title={DocBank: A Benchmark Dataset for Document Layout Analysis}, author={Minghao Li and Yiheng Xu and Lei Cui and Shaohan Huang and Furu Wei and Zhoujun Li and Ming Zhou}, year={2020}, eprint={2006.01038}, archivePrefix={arXiv}, primaryClass={cs.CL} }