DocBank adalah kumpulan data baru berskala besar yang dibangun menggunakan pendekatan pengawasan yang lemah. Hal ini memungkinkan model untuk mengintegrasikan informasi tekstual dan tata letak untuk tugas hilir. Dataset DocBank saat ini mencakup 500 ribu halaman dokumen, 400 ribu untuk pelatihan, 50 ribu untuk validasi, dan 50 ribu untuk pengujian.
Kami telah mengunggah kumpulan data di HuggingFace.
Kami memperbarui lisensi ke Apache-2.0.
Anotasi Format MSCOCO dapat diunduh dari beranda kumpulan data DocBank.
Model ResNeXt-101 telah ditambahkan ke Model Zoo.
Makalah kami telah diterima di COLING2020 dan makalah versi Camera-ready telah diperbarui di arXiv.com
Kami menyediakan pemuat kumpulan data bernama DocBankLoader dan juga dapat mengonversi DocBank ke format model Deteksi Objek
DocBank adalah perpanjangan alami dari kumpulan data TableBank (repo, paper).
LayoutLM (repo, paper) adalah metode pra-pelatihan teks dan tata letak yang efektif serta mengarsipkan hasil SOTA di DocBank
Untuk tugas analisis tata letak dokumen, terdapat beberapa kumpulan data tata letak dokumen berbasis gambar, sementara sebagian besar dibuat untuk pendekatan visi komputer dan sulit diterapkan pada metode NLP. Selain itu, kumpulan data berbasis gambar sebagian besar mencakup gambar halaman dan kotak pembatas struktur semantik besar, yang bukan merupakan anotasi tingkat token yang terperinci. Selain itu, juga memakan waktu dan tenaga untuk menghasilkan susunan blok teks tingkat token yang diberi label manusia dan sangat detail. Oleh karena itu, sangat penting untuk memanfaatkan lemahnya pengawasan untuk mendapatkan dokumen berlabel terperinci dengan upaya minimal, sekaligus membuat data mudah diterapkan pada pendekatan NLP dan visi komputer apa pun.
Untuk mencapai tujuan ini, kami membangun kumpulan data DocBank, tolok ukur tingkat dokumen dengan anotasi tingkat token yang terperinci untuk analisis tata letak. Berbeda dari kumpulan data konvensional yang diberi label manusia, pendekatan kami memperoleh anotasi berkualitas tinggi dengan cara yang sederhana namun efektif dengan pengawasan yang lemah.
Dataset DocBank terdiri dari 500 ribu halaman dokumen dengan 12 jenis unit semantik.
Membelah | Abstrak | Pengarang | Keterangan | Tanggal | Persamaan | Angka | catatan kaki | Daftar | Ayat | Referensi | Bagian | Meja | Judul | Total |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Kereta | 25.387 | 25.909 | 106.723 | 6.391 | 161.140 | 90.429 | 38.482 | 44.927 | 398.086 | 44.813 | 180.774 | 19.638 | 21.688 | 400.000 |
6,35% | 6,48% | 26,68% | 1,60% | 40,29% | 22,61% | 9,62% | 11,23% | 99,52% | 11,20% | 45,19% | 4,91% | 5,42% | 100,00% | |
Dev | 3.164 | 3.286 | 13.443 | 797 | 20.154 | 11.463 | 4.804 | 5.609 | 49.759 | 5.549 | 22.666 | 2.374 | 2.708 | 50.000 |
6,33% | 6,57% | 26,89% | 1,59% | 40,31% | 22,93% | 9,61% | 11,22% | 99,52% | 11,10% | 45,33% | 4,75% | 5,42% | 100,00% | |
Tes | 3.176 | 3.277 | 13.476 | 832 | 20.244 | 11.378 | 4.876 | 5.553 | 49.762 | 5.641 | 22.384 | 2.505 | 2.729 | 50.000 |
6,35% | 6,55% | 26,95% | 1,66% | 40,49% | 22,76% | 9,75% | 11,11% | 99,52% | 11,28% | 44,77% | 5,01% | 5,46% | 100,00% | |
Total | 31.727 | 32.472 | 133.642 | 8.020 | 201.538 | 113.270 | 48.162 | 56.089 | 497.607 | 56.003 | 225.824 | 24.517 | 27.125 | 500.000 |
6,35% | 6,49% | 26,73% | 1,60% | 40,31% | 22,65% | 9,63% | 11,22% | 99,52% | 11,20% | 45,16% | 4,90% | 5,43% | 100,00% |
Tahun | Kereta | Dev | Tes | SEMUA | ||||
---|---|---|---|---|---|---|---|---|
2014 | 65.976 | 16,49% | 8.270 | 16,54% | 8.112 | 16,22% | 82.358 | 16,47% |
2015 | 77.879 | 19,47% | 9.617 | 19,23% | 9.700 | 19,40% | 97.196 | 19,44% |
2016 | 87.006 | 21,75% | 10.970 | 21,94% | 10.990 | 21,98% | 108.966 | 21,79% |
2017 | 91.583 | 22,90% | 11.623 | 23,25% | 11.464 | 22,93% | 114.670 | 22,93% |
2018 | 77.556 | 19,39% | 9.520 | 19,04% | 9.734 | 19,47% | 96.810 | 19,36% |
Total | 400.000 | 100,00% | 50.000 | 100,00% | 50.000 | 100,00% | 500.000 | 100,00% |
Kumpulan data | #Halaman | #Unit | Berbasis gambar? | Berbasis teks? | Berbutir halus? | Dapat diperpanjang? |
---|---|---|---|---|---|---|
Pasal Daerah | 100 | 9 | ✔ | ✘ | ✔ | ✘ |
GROTOAP2 | 119.334 | 22 | ✔ | ✘ | ✘ | ✘ |
PubLayNet | 364.232 | 5 | ✔ | ✘ | ✔ | ✘ |
Bank Meja | 417.234 | 1 | ✔ | ✘ | ✔ | ✔ |
Bank Dokumen | 500.000 | 12 | ✔ | ✔ | ✔ | ✔ |
Karena kumpulan data dianotasi sepenuhnya pada tingkat token, kami menganggap tugas analisis tata letak dokumen sebagai tugas pelabelan urutan berbasis teks.
Dalam pengaturan ini, kami mengevaluasi tiga model bahasa terlatih yang representatif pada kumpulan data kami termasuk BERT, RoBERTa, dan LayoutLM untuk memvalidasi efektivitas DocBank.
Untuk memverifikasi kinerja model dari berbagai modalitas di DocBank, kami melatih model R-CNN Lebih Cepat pada format deteksi objek DocBank dan menyatukan keluarannya dengan model pelabelan urutan untuk dievaluasi.
Karena masukan model kami adalah dokumen 2-D berseri, evaluasi penandaan BIO pada umumnya tidak sesuai untuk tugas kami. Token dari setiap unit semantik mungkin terdistribusi secara terputus-putus dalam urutan masukan.
Dalam hal ini, kami mengusulkan metrik baru, khususnya untuk metode analisis tata letak dokumen berbasis teks. Untuk setiap jenis struktur semantik dokumen, kami menghitung metriknya satu per satu. Definisinya adalah sebagai berikut:
Garis dasar BERT dan RoBERTa kami dibangun berdasarkan Transformers HuggingFace sementara garis dasar LayoutLM diimplementasikan dengan basis kode di repositori resmi LayoutLM. Kami menggunakan 8 GPU V100 dengan ukuran batch 10 per GPU. Diperlukan waktu 5 jam untuk menyempurnakan 1 epoch pada 400 ribu halaman dokumen. Kami menggunakan tokenizer BERT dan RoBERTa untuk memberi token pada sampel pelatihan dan mengoptimalkan model dengan AdamW. Kecepatan pembelajaran awal pengoptimal adalah 5e-5. Kami membagi data menjadi ukuran blok maksimal N=512. Kami menggunakan Detectron2 untuk melatih model R-CNN Lebih Cepat di DocBank. Kami menggunakan algoritme Faster R-CNN dengan ResNeXt-101 sebagai arsitektur jaringan tulang punggung, yang parameternya telah dilatih sebelumnya pada kumpulan data ImageNet.
Model | Abstrak | Pengarang | Keterangan | Persamaan | Angka | catatan kaki | Daftar | Ayat | Referensi | Bagian | Meja | Judul | Rata-rata makro |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
bert-base | 0,9294 | 0,8484 | 0,8629 | 0,8152 | 1.0000 | 0,7805 | 0,7133 | 0,9619 | 0,9310 | 0,9081 | 0,8296 | 0,9442 | 0,8770 |
basis roberta | 0,9288 | 0,8618 | 0,8944 | 0,8248 | 1.0000 | 0,8014 | 0,7353 | 0,9646 | 0,9341 | 0,9337 | 0,8389 | 0,9511 | 0,8891 |
layoutlm-base | 0,9816 | 0,8595 | 0,9597 | 0,8947 | 1.0000 | 0,8957 | 0,8948 | 0,9788 | 0,9338 | 0,9598 | 0,8633 | 0,9579 | 0,9316 |
bert-besar | 0,9286 | 0,8577 | 0,8650 | 0,8177 | 1.0000 | 0,7814 | 0,6960 | 0,9619 | 0,9284 | 0,9065 | 0,8320 | 0,9430 | 0,8765 |
roberta-besar | 0,9479 | 0,8724 | 0,9081 | 0,8370 | 1.0000 | 0,8392 | 0,7451 | 0,9665 | 0,9334 | 0,9407 | 0,8494 | 0,9461 | 0,8988 |
tata letaklm-besar | 0,9784 | 0,8783 | 0,9556 | 0,8974 | 1.0000 | 0,9146 | 0,9004 | 0,9790 | 0,9332 | 0,9596 | 0,8679 | 0,9552 | 0,9350 |
X101 | 0,9717 | 0,8227 | 0,9435 | 0,8938 | 0,8812 | 0,9029 | 0,9051 | 0,9682 | 0,8798 | 0,9412 | 0,8353 | 0,9158 | 0,9051 |
X101 & tata letaklm-base | 0,9815 | 0,8907 | 0,9669 | 0,9430 | 0,9990 | 0,9292 | 0,9300 | 0,9843 | 0,9437 | 0,9664 | 0,8818 | 0,9575 | 0,9478 |
X101 & tata letaklm-besar | 0,9802 | 0,8964 | 0,9666 | 0,9440 | 0,9994 | 0,9352 | 0,9293 | 0,9844 | 0,9430 | 0,9670 | 0,8875 | 0,9531 | 0,9488 |
Kami mengevaluasi enam model pada set pengujian DocBank. Kami memperhatikan bahwa LayoutLM mendapat skor tertinggi pada label {abstrak, penulis, keterangan, persamaan, gambar, footer, daftar, paragraf, bagian, tabel, judul}. Model RoBERTa mendapatkan performa terbaik pada label "referensi" tetapi kesenjangan dengan LayoutLM sangat kecil. Hal ini menunjukkan bahwa arsitektur LayoutLM secara signifikan lebih baik daripada arsitektur BERT dan RoBERTa dalam tugas analisis tata letak dokumen.
Kami juga mengevaluasi model ResNeXt-101 dan dua model ansambel yang menggabungkan ResNeXt-101 dan LayoutLM. Output dari model ResNeXt-101 adalah kotak pembatas struktur semantik. Untuk menyatukan keluarannya, kami menandai token di dalam setiap kotak pembatas dengan label kotak pembatas yang sesuai. Setelah itu, kami menghitung metrik mengikuti persamaan di atas.
Model terlatih tersedia untuk diunduh di DocBank Model Zoo.
Kami menyediakan skrip untuk mengkonversi file PDF ke data format DocBank. Anda dapat menjalankan skrip pemrosesan PDF pdf_process.py di direktori skrip. Anda mungkin perlu menginstal beberapa dependensi skrip ini melalui penginstal paket pip.
skrip CD python pdf_process.py --data_dir /path/to/pdf/directory --output_dir /path/ke/data/output/directory
**Mohon JANGAN mendistribusikan ulang data kami.**
Jika Anda menggunakan korpus dalam karya yang diterbitkan, harap mengutipnya dengan mengacu pada Bagian "Makalah dan Kutipan".
Kami menyediakan 100 sampel untuk pratinjau serta file indeks set pelatihan, validasi, dan pengujian di direktori indexed_files
.
Dalam pekerjaan ini, kami menormalkan semua kotak pembatas menggunakan ukuran halaman PDF dan menskalakan setiap nilai ke dalam kisaran 0-1000 agar sesuai dengan berbagai tata letak dokumen.
Anotasi dan gambar dokumen asli dari kumpulan data DocBank dapat diunduh dari HuggingFace .
Minghao Li, Yiheng Xu, Lei Cui, Shaohan Huang, Furu Wei, Zhoujun Li, Ming Zhou
https://arxiv.org/abs/2006.01038
@misc{li2020docbank, title={DocBank: A Benchmark Dataset for Document Layout Analysis}, author={Minghao Li and Yiheng Xu and Lei Cui and Shaohan Huang and Furu Wei and Zhoujun Li and Ming Zhou}, year={2020}, eprint={2006.01038}, archivePrefix={arXiv}, primaryClass={cs.CL} }