OpenContracts имеет мощную модульную систему трубопровода для обработки документов. Архитектура поддерживает легкое создание и интеграцию пользовательских анализаторов, встраивателей и генераторов миниатюр:
Каждый компонент трубопровода наследует от базового класса, который определяет четкий интерфейс:
Узнайте больше о:
Модульная конструкция позволяет легко добавлять пользовательские процессоры - просто наследуя от соответствующего базового класса и реализовать необходимые методы. Смотрите нашу документацию по трубопроводу для получения подробной информации о создании собственных компонентов.
На данный момент мы поддерживаем только PDF и текстовые форматы (например, PlastExt и MD). Благодаря нашему новому конвейеру по анализу мы можем легко поддерживать другие офисные форматы OOXML, такие как DOCX и XLSX, однако, зрители с открытым исходным кодом и редакторы являются редкостью. Одним из возможных маршрутов является использование многих инструментов OOXML -> MD, которые сейчас существуют. Это будет достаточно хорошим решением для большинства документов, как только мы добавим зрителя и аннотатор Markdown (см. Наша дорожная карта).
Особая благодарность Allenai's Pawls Project и NLMatics NLM-Engestor. Они впервые зарегистрировали ряд функций и потоков, и мы используем их код в некоторых частях приложения.
NLMATICS также была создателем и вдохновением для нашей сетки извлечения данных и конвейера UI/UX:
Компания опередила свое время, и, хотя продукт больше не доступен, OpenContracts стремится воспользоваться некоторыми из своих лучших и самых инновационных функций и сделать их открытым исходным кодом и доступным для масс!