O OpenContrates apresenta um poderoso sistema de pipeline modular para o processamento de documentos. A arquitetura suporta uma criação e integração fáceis de analisadores personalizados, incorporadores e geradores de miniaturas:
Cada componente de pipeline herda de uma classe base que define uma interface clara:
Saiba mais sobre:
O design modular facilita a adição de processadores personalizados - apenas herdem da classe base apropriada e implemente os métodos necessários. Consulte nossa documentação do pipeline para obter detalhes sobre como criar seus próprios componentes.
No momento, suportamos apenas formatos PDF e baseados em texto (como texto simples e MD). Com o nosso novo pipeline de análise, podemos facilmente suportar outros formatos de escritório OOXML, como DOCX e XLSX, no entanto, os espectadores e editores de código aberto são uma raridade. Uma rota possível é alavancar as muitas ferramentas de Ooxml -> MD que agora existem. Esta será uma solução razoavelmente boa para a maioria dos documentos assim que adicionarmos um visualizador e anotador do Markdown (consulte nosso roteiro).
Agradecimentos especiais ao projeto de patins de Allenai e nlmatics nlm-ingestor. Eles foram pioneiros em vários recursos e fluxos, e estamos usando o código deles em algumas partes do aplicativo.
O NLMATICS também foi o criador e a inspiração para a nossa grade de extração de dados e a análise da UI/UX:
A empresa estava à frente de seu tempo e, embora o produto não esteja mais disponível, o OpenContrates pretende pegar alguns de seus melhores e mais inovadores recursos e torná -los de código aberto e disponíveis para as massas!