Francés | portugués | Español | 中文
Parsr , es una cadena de herramientas de limpieza, análisis y extracción de documentos de tamaño mínimo ( imagen, pdf, docx, eml ) que genera datos fácilmente disponibles, organizados y utilizables en formatos JSON, Markdown (MD), CSV/Pandas DF o TXT .
Proporciona a analistas, científicos de datos y desarrolladores un conjunto de información limpia, estructurada y enriquecida con etiquetas para aplicaciones listas para usar que van desde entrada de datos y automatización de analistas de documentos, archivado y muchas otras.
Actualmente, Parsr puede realizar: limpieza de documentos, regeneración de jerarquías (palabras, líneas, párrafos), detección de encabezados, tablas, listas, índices, números de página, encabezados/pies de página, enlaces y otros. Mira todas las características.
-- La guía de instalación avanzada está disponible aquí --
La forma más rápida de instalar y ejecutar la API de Parsr es a través de la imagen de la ventana acoplable:
docker pull axarev/parsr
Si también desea instalar la GUI para enviar documentos y visualizar resultados:
docker pull axarev/parsr-ui-localhost
Nota: Parsr también se puede instalar sin sistema operativo (no a través de contenedores Docker), cuyo procedimiento está documentado en la guía de instalación.
-- La guía de uso avanzado está disponible aquí --
Para ejecutar la API, emita:
docker run -p 3001:3001 axarev/parsr
que lo iniciará en http://localhost:3001.
Consulta la documentación sobre el uso de la API.
Para acceder al cliente Python a la API de Parsr, emita:
pip install parsr-client
Para probar Jupyter Notebook , utilizando el cliente Python, diríjase a la demostración de Jupyter.
docker run -t -p 8080:80 axarev/parsr-ui-localhost:latest
Consulte la documentación de Configuración para interpretar las opciones configurables en el visor GUI.
El uso basado en API y el uso de la línea de comandos están documentados en la guía de uso avanzado.
Todos los archivos de documentación se pueden encontrar aquí.
Consulte las pautas de contribución.
Licencias de Bibliotecas de Terceros para sus dependencias:
Copyright 2020 Operaciones del Grupo AXA SA
Licenciado bajo la licencia Apache 2.0 (ver el archivo LICENCIA).