OpenContracts dispose d'un système de pipeline modulaire puissant pour le traitement des documents. L'architecture prend en charge la création et l'intégration faciles des analyseurs personnalisés, des intérêts et des générateurs de miniatures:
Chaque composant de pipeline hérite d'une classe de base qui définit une interface claire:
En savoir plus sur:
La conception modulaire facilite l'ajout de processeurs personnalisés - il suffit de hériter de la classe de base appropriée et d'implémenter les méthodes requises. Consultez notre documentation de pipeline pour plus de détails sur la création de vos propres composants.
À l'heure actuelle, nous ne prenons que les formats PDF et textuels (comme le texte en clair et MD). Avec notre nouveau pipeline d'analyse, nous pouvons facilement prendre en charge d'autres formats OOXML OOXML comme DOCX et XLSX, cependant, les téléspectateurs et éditeurs open source sont une rareté. Un itinéraire possible consiste à tirer parti des nombreux outils OOXML -> MD qui existent maintenant. Ce sera une solution raisonnablement bonne pour la majorité des documents une fois que nous ajouterons un spectateur et un annotateur de Markdown (voir notre feuille de route).
Un merci spécial au projet Pawls d'Allenai et à Nlmatics NLM-Ingestor. Ils ont lancé un certain nombre de fonctionnalités et de flux, et nous utilisons leur code dans certaines parties de l'application.
Nlmatics était également le créateur et l'inspiration de notre réseau d'extrait de données et de pipeline d'analyse UI / UX:
L'entreprise était en avance sur son temps et, bien que le produit ne soit plus disponible, OpenContracts vise à prendre certaines de ses meilleures fonctionnalités et les plus innovantes et en leur mettant une source open source et disponible pour les masses!