DocBank — это новый крупномасштабный набор данных, созданный с использованием подхода слабого надзора. Это позволяет моделям интегрировать как текстовую информацию, так и информацию о макете для последующих задач. Текущий набор данных DocBank в общей сложности включает 500 тысяч страниц документов, из которых 400 тысяч для обучения, 50 тысяч для проверки и 50 тысяч для тестирования.
Мы загрузили наборы данных на HuggingFace.
Обновляем лицензию до Apache-2.0.
Аннотацию формата MSCOCO можно загрузить с домашней страницы набора данных DocBank.
Модель ResNeXt-101 добавлена в Зоопарк моделей.
Наша статья была принята в COLING2020, а версия статьи для камеры была обновлена на arXiv.com.
Мы предоставляем загрузчик набора данных под названием DocBankLoader, который также может конвертировать DocBank в формат моделей обнаружения объектов.
DocBank является естественным расширением набора данных TableBank (репо, бумага).
LayoutLM (репозиторий, бумага) — это эффективный метод предварительного обучения текста и макета, который архивирует результаты SOTA в DocBank.
Для задач анализа макета документа существует несколько наборов данных макета документа на основе изображений, хотя большинство из них созданы для подходов компьютерного зрения, и их трудно применить к методам НЛП. Кроме того, наборы данных на основе изображений в основном включают изображения страниц и ограничивающие рамки больших семантических структур, которые не являются детальными аннотациями уровня токена. Более того, создание размеченного человеком и детального расположения текстовых блоков на уровне токена требует много времени и труда. Поэтому крайне важно использовать слабый надзор для получения детализированных документов с минимальными усилиями, одновременно обеспечивая возможность легкого применения данных к любым подходам НЛП и компьютерного зрения.
С этой целью мы создаем набор данных DocBank — эталон на уровне документа с детальными аннотациями на уровне токенов для анализа макета. В отличие от обычных наборов данных, размеченных человеком, наш подход позволяет получать высококачественные аннотации простым, но эффективным способом со слабым контролем.
Набор данных DocBank состоит из 500 тысяч страниц документов с 12 типами семантических единиц.
Расколоть | Абстрактный | Автор | Подпись | Дата | Уравнение | Фигура | Нижний колонтитул | Список | Параграф | Ссылка | Раздел | Стол | Заголовок | Общий |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Тренироваться | 25 387 | 25 909 | 106 723 | 6,391 | 161 140 | 90 429 | 38 482 | 44 927 | 398 086 | 44 813 | 180 774 | 19 638 | 21 688 | 400 000 |
6,35% | 6,48% | 26,68% | 1,60% | 40,29% | 22,61% | 9,62% | 11,23% | 99,52% | 11,20% | 45,19% | 4,91% | 5,42% | 100,00% | |
Дев | 3164 | 3286 | 13 443 | 797 | 20 154 | 11 463 | 4804 | 5,609 | 49 759 | 5,549 | 22 666 | 2374 | 2708 | 50 000 |
6,33% | 6,57% | 26,89% | 1,59% | 40,31% | 22,93% | 9,61% | 11,22% | 99,52% | 11,10% | 45,33% | 4,75% | 5,42% | 100,00% | |
Тест | 3176 | 3277 | 13 476 | 832 | 20 244 | 11 378 | 4876 | 5,553 | 49 762 | 5,641 | 22 384 | 2505 | 2729 | 50 000 |
6,35% | 6,55% | 26,95% | 1,66% | 40,49% | 22,76% | 9,75% | 11,11% | 99,52% | 11,28% | 44,77% | 5,01% | 5,46% | 100,00% | |
Общий | 31 727 | 32 472 | 133 642 | 8,020 | 201 538 | 113 270 | 48 162 | 56 089 | 497 607 | 56 003 | 225 824 | 24 517 | 27 125 | 500 000 |
6,35% | 6,49% | 26,73% | 1,60% | 40,31% | 22,65% | 9,63% | 11,22% | 99,52% | 11,20% | 45,16% | 4,90% | 5,43% | 100,00% |
Год | Тренироваться | Дев | Тест | ВСЕ | ||||
---|---|---|---|---|---|---|---|---|
2014 год | 65 976 | 16,49% | 8,270 | 16,54% | 8,112 | 16,22% | 82 358 | 16,47% |
2015 год | 77 879 | 19,47% | 9,617 | 19,23% | 9700 | 19,40% | 97 196 | 19,44% |
2016 год | 87 006 | 21,75% | 10 970 | 21,94% | 10 990 | 21,98% | 108 966 | 21,79% |
2017 год | 91 583 | 22,90% | 11 623 | 23,25% | 11 464 | 22,93% | 114 670 | 22,93% |
2018 год | 77 556 | 19,39% | 9,520 | 19,04% | 9,734 | 19,47% | 96 810 | 19,36% |
Общий | 400 000 | 100,00% | 50 000 | 100,00% | 50 000 | 100,00% | 500 000 | 100,00% |
Набор данных | #Страницы | #Единицы | На основе изображения? | Текстовый? | Мелкозернистый? | Расширяемый? |
---|---|---|---|---|---|---|
Статья Регионы | 100 | 9 | ✔ | ✘ | ✔ | ✘ |
ГРОТОАП2 | 119 334 | 22 | ✔ | ✘ | ✘ | ✘ |
ПабЛайНет | 364 232 | 5 | ✔ | ✘ | ✔ | ✘ |
СтолБанк | 417 234 | 1 | ✔ | ✘ | ✔ | ✔ |
ДокБанк | 500 000 | 12 | ✔ | ✔ | ✔ | ✔ |
Поскольку набор данных был полностью аннотирован на уровне токенов, мы рассматриваем задачу анализа макета документа как задачу маркировки последовательностей на основе текста.
В этих условиях мы оцениваем три репрезентативные предварительно обученные языковые модели в нашем наборе данных, включая BERT, RoBERTa и LayoutLM, чтобы подтвердить эффективность DocBank.
Чтобы проверить производительность моделей из разных модальностей в DocBank, мы обучаем модель Faster R-CNN формату обнаружения объектов DocBank и унифицируем ее выходные данные с моделями маркировки последовательностей для оценки.
Поскольку входные данные нашей модели представляют собой сериализованные двумерные документы, типичная оценка BIO-маркировки не подходит для нашей задачи. Токены каждой семантической единицы могут распределяться во входной последовательности прерывисто.
В данном случае мы предложили новую метрику, особенно для методов анализа макета текстового документа. Для каждого вида семантической структуры документов мы рассчитывали их метрики индивидуально. Определение следующее:
Наши базовые версии BERT и RoBERTa построены на трансформаторах HuggingFace, а базовые версии LayoutLM реализованы с помощью кодовой базы в официальном репозитории LayoutLM. Мы использовали 8 графических процессоров V100 с размером партии по 10 на каждый графический процессор. На точную настройку 1 эпохи на 400 тысячах страниц документа уходит 5 часов. Мы использовали токенизаторы BERT и RoBERTa для токенизации обучающих выборок и оптимизировали модель с помощью AdamW. Начальная скорость обучения оптимизатора равна 5e-5. Мы разделяем данные на блок максимального размера N=512. Мы используем Detectron2 для обучения модели Faster R-CNN в DocBank. Мы используем алгоритм Faster R-CNN с ResNeXt-101 в качестве архитектуры магистральной сети, где параметры предварительно обучаются в наборе данных ImageNet.
Модели | Абстрактный | Автор | Подпись | Уравнение | Фигура | Нижний колонтитул | Список | Параграф | Ссылка | Раздел | Стол | Заголовок | Макро среднее |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Берт-база | 0,9294 | 0,8484 | 0,8629 | 0,8152 | 1,0000 | 0,7805 | 0,7133 | 0,9619 | 0,9310 | 0,9081 | 0,8296 | 0,9442 | 0,8770 |
Роберта-база | 0,9288 | 0,8618 | 0,8944 | 0,8248 | 1,0000 | 0,8014 | 0,7353 | 0,9646 | 0,9341 | 0,9337 | 0,8389 | 0,9511 | 0,8891 |
Layoutlm-база | 0,9816 | 0,8595 | 0,9597 | 0,8947 | 1,0000 | 0,8957 | 0,8948 | 0,9788 | 0,9338 | 0,9598 | 0,8633 | 0,9579 | 0,9316 |
Берт-большой | 0,9286 | 0,8577 | 0,8650 | 0,8177 | 1,0000 | 0,7814 | 0,6960 | 0,9619 | 0,9284 | 0,9065 | 0,8320 | 0,9430 | 0,8765 |
Роберта-большая | 0,9479 | 0,8724 | 0,9081 | 0,8370 | 1,0000 | 0,8392 | 0,7451 | 0,9665 | 0,9334 | 0,9407 | 0,8494 | 0,9461 | 0,8988 |
макет lm-большой | 0,9784 | 0,8783 | 0,9556 | 0,8974 | 1,0000 | 0,9146 | 0,9004 | 0,9790 | 0,9332 | 0,9596 | 0,8679 | 0,9552 | 0,9350 |
Х101 | 0,9717 | 0,8227 | 0,9435 | 0,8938 | 0,8812 | 0,9029 | 0,9051 | 0,9682 | 0,8798 | 0,9412 | 0,8353 | 0,9158 | 0,9051 |
X101 и база макета | 0,9815 | 0,8907 | 0,9669 | 0,9430 | 0,9990 | 0,9292 | 0,9300 | 0,9843 | 0,9437 | 0,9664 | 0,8818 | 0,9575 | 0,9478 |
X101 и макет очень большой | 0,9802 | 0,8964 | 0,9666 | 0,9440 | 0,9994 | 0,9352 | 0,9293 | 0,9844 | 0,9430 | 0,9670 | 0,8875 | 0,9531 | 0,9488 |
Мы оцениваем шесть моделей на тестовом наборе ДокБанка. Мы заметили, что LayoutLM получает самые высокие оценки по меткам {аннотация, автор, подпись, уравнение, рисунок, нижний колонтитул, список, абзац, раздел, таблица, заголовок}. Модель RoBERTa демонстрирует лучшие характеристики на «эталонной» этикетке, но разрыв с LayoutLM очень мал. Это указывает на то, что архитектура LayoutLM значительно лучше архитектуры BERT и RoBERTa в задаче анализа макета документа.
Мы также оцениваем модель ResNeXt-101 и две ансамблевые модели, объединяющие ResNeXt-101 и LayoutLM. Результатом работы модели ResNeXt-101 являются ограничивающие рамки семантических структур. Чтобы унифицировать их выходные данные, мы помечаем токены внутри каждой ограничивающей рамки меткой соответствующей ограничивающей рамки. После этого мы вычисляем метрики, следуя приведенному выше уравнению.
Обученные модели доступны для скачивания в Зоопарке моделей DocBank.
Мы предоставляем скрипт для конвертации PDF-файлов в данные формата DocBank. Вы можете запустить сценарий обработки PDF pdf_process.py в каталоге сценариев. Возможно, вам придется установить некоторые зависимости этого сценария через установщик пакета pip.
CD-скрипты python pdf_process.py --data_dir /путь/к/pdf/каталогу --output_dir /путь/к/данным/выходному/каталогу
**Пожалуйста, НЕ распространяйте наши данные повторно.**
Если вы используете корпус в опубликованной работе, пожалуйста, цитируйте его со ссылкой на раздел «Статья и цитирование».
Мы предоставляем 100 образцов для предварительного просмотра, а также индексные файлы обучающих, проверочных и тестовых наборов в каталоге indexed_files
.
В этой работе мы нормализуем все ограничивающие рамки, используя размер страниц PDF, и масштабируем каждое значение в диапазоне от 0 до 1000, чтобы оно соответствовало различным макетам документов.
Аннотации и оригинальные изображения документов набора данных DocBank можно загрузить с HuggingFace .
Минхао Ли, Ихэн Сюй, Лэй Цуй, Шаохан Хуан, Фуру Вэй, Чжоуцзюнь Ли, Мин Чжоу
https://arxiv.org/abs/2006.01038
@misc{li2020docbank, title={DocBank: A Benchmark Dataset for Document Layout Analysis}, author={Minghao Li and Yiheng Xu and Lei Cui and Shaohan Huang and Furu Wei and Zhoujun Li and Ming Zhou}, year={2020}, eprint={2006.01038}, archivePrefix={arXiv}, primaryClass={cs.CL} }