Parsr
v1.2.2
法語 |葡萄牙語 |西班牙語 | 中文
Parsr是一個佔用空間最小的文件(圖像、pdf、docx、eml )清理、解析和提取工具鏈,可產生JSON、Markdown (MD)、CSV/Pandas DF或TXT格式的現成可用、有組織且可用的數據。
它為分析師、資料科學家和開發人員提供了清晰的結構化和標籤豐富的資訊集,適用於即用型應用程序,包括資料輸入和文件分析師自動化、歸檔等。
目前,Parsr 可以執行:文件清理、層次結構重新產生(單字、行、段落)、標題、表格、清單、目錄、頁碼、頁首/頁尾、連結等的偵測。查看所有功能。
-- 進階安裝指南可在此處取得 --
安裝和運行 Parsr API 的最快方法是透過 docker 映像:
docker pull axarev/parsr
如果您也希望安裝用於傳送文件和視覺化結果的 GUI:
docker pull axarev/parsr-ui-localhost
注意:Parsr 也可以裸機安裝(不透過 Docker 容器),其流程記錄在安裝指南中。
-- 進階使用指南可在此處取得 --
若要執行 API,請發出:
docker run -p 3001:3001 axarev/parsr
這將在 http://localhost:3001 上啟動它。
請參閱有關 API 使用的文件。
若要存取 Parsr API 的python客戶端,請發出:
pip install parsr-client
若要使用 python 用戶端對Jupyter Notebook進行取樣,請前往 jupyter 進行示範。
docker run -t -p 8080:80 axarev/parsr-ui-localhost:latest
請參閱設定文件以解釋 GUI 檢視器中的可設定選項。
基於 API 的用法和命令列用法記錄在進階使用指南中。
所有文檔文件都可以在這裡找到。
請參閱貢獻指南。
第三方庫為其依賴項授予許可:
版權所有 2020 AXA Group Operations SA
根據 Apache 2.0 許可證取得許可(請參閱許可證文件)。