Parsr
v1.2.2
法语 |葡萄牙语 |西班牙语 | 中文
Parsr是一个占用空间最小的文档(图像、pdf、docx、eml )清理、解析和提取工具链,可生成JSON、Markdown (MD)、CSV/Pandas DF或TXT格式的现成可用、有组织且可用的数据。
它为分析师、数据科学家和开发人员提供了清晰的结构化和标签丰富的信息集,适用于即用型应用程序,包括数据输入和文档分析师自动化、归档等。
目前,Parsr 可以执行:文档清理、层次结构重新生成(单词、行、段落)、标题、表格、列表、目录、页码、页眉/页脚、链接等的检测。查看所有功能。
-- 高级安装指南可在此处获取 --
安装和运行 Parsr API 的最快方法是通过 docker 镜像:
docker pull axarev/parsr
如果您还希望安装用于发送文档和可视化结果的 GUI:
docker pull axarev/parsr-ui-localhost
注意:Parsr 也可以裸机安装(不通过 Docker 容器),其过程记录在安装指南中。
-- 高级使用指南可在此处获取 --
要运行 API,请发出:
docker run -p 3001:3001 axarev/parsr
这将在 http://localhost:3001 上启动它。
请参阅有关 API 使用的文档。
要访问 Parsr API 的python客户端,请发出:
pip install parsr-client
要使用 python 客户端对Jupyter Notebook进行采样,请前往 jupyter 演示。
docker run -t -p 8080:80 axarev/parsr-ui-localhost:latest
请参阅配置文档以解释 GUI 查看器中的可配置选项。
基于 API 的用法和命令行用法记录在高级使用指南中。
所有文档文件都可以在这里找到。
请参阅贡献指南。
第三方库为其依赖项授予许可:
版权所有 2020 AXA Group Operations SA
根据 Apache 2.0 许可证获得许可(请参阅许可证文件)。