Französisch | Portugiesisch | Spanisch | 中文
Parsr ist eine Toolchain zum Bereinigen, Parsen und Extrahieren von Dokumenten ( Bild, PDF, DocX, EML ) mit minimalem Platzbedarf, die leicht verfügbare, organisierte und verwendbare Daten in den Formaten JSON, Markdown (MD), CSV/Pandas DF oder TXT generiert.
Es stellt Analysten, Datenwissenschaftlern und Entwicklern einen sauber strukturierten und mit Etiketten angereicherten Informationssatz für gebrauchsfertige Anwendungen zur Verfügung, die von der Dateneingabe über Dokumentenanalytiker bis hin zur Automatisierung, Archivierung und vielen anderen reichen.
Derzeit kann Parsr Folgendes durchführen: Dokumentbereinigung, Hierarchieneuerstellung (Wörter, Zeilen, Absätze), Erkennung von Überschriften, Tabellen, Listen, Inhaltsverzeichnissen, Seitenzahlen, Kopf-/Fußzeilen, Links und mehr. Schauen Sie sich alle Funktionen an.
-- Die erweiterte Installationsanleitung ist hier verfügbar --
Der schnellste Weg, die Parsr-API zu installieren und auszuführen, ist über das Docker-Image:
docker pull axarev/parsr
Wenn Sie auch die GUI zum Versenden von Dokumenten und zur Visualisierung von Ergebnissen installieren möchten:
docker pull axarev/parsr-ui-localhost
Hinweis: Parsr kann auch bare-metal (nicht über Docker-Container) installiert werden, die Vorgehensweise ist im Installationsleitfaden dokumentiert.
-- Der Leitfaden zur erweiterten Nutzung ist hier verfügbar --
Um die API auszuführen, geben Sie Folgendes ein:
docker run -p 3001:3001 axarev/parsr
Dadurch wird es auf http://localhost:3001 gestartet.
Konsultieren Sie die Dokumentation zur Verwendung der API.
Um auf den Python- Client für die Parsr-API zuzugreifen, geben Sie Folgendes ein:
pip install parsr-client
Um das Jupyter Notebook mit dem Python-Client auszuprobieren, gehen Sie zur Jupyter-Demo.
docker run -t -p 8080:80 axarev/parsr-ui-localhost:latest
Informationen zur Interpretation der konfigurierbaren Optionen im GUI-Viewer finden Sie in der Konfigurationsdokumentation.
Die API-basierte Nutzung und die Befehlszeilennutzung sind im erweiterten Nutzungsleitfaden dokumentiert.
Alle Dokumentationsdateien finden Sie hier.
Bitte beachten Sie die Beitragsrichtlinien.
Lizenzen von Drittanbieterbibliotheken für ihre Abhängigkeiten:
Copyright 2020 AXA Group Operations SA
Lizenziert unter der Apache 2.0-Lizenz (siehe LICENSE-Datei).