Ambar ist eine Open-Source-Dokumentsuchmaschine mit automatisiertem Crawling, OCR, Tagging und sofortiger Volltextsuche.
Ambar definiert eine neue Möglichkeit, die Suche nach Volltextdokumenten in Ihren Workflow zu integrieren.
docker-compose
Datei bereitTutorial: Ambar-Suchanfragen meistern
ambar_en
, Russisch ambar_ru
, Deutsch ambar_de
, Italienisch ambar_it
, Polnisch ambar_pl
, Chinesisch ambar_cn
, CJK ambar_cjk
Ambar 2.0 unterstützt nur lokales FS-Crawling. Wenn Sie eine SMB-Freigabe eines FTP-Speicherorts crawlen müssen, mounten Sie sie einfach mit Standard-Linux-Tools. Das Crawlen erfolgt automatisch, es ist kein Zeitplan erforderlich, da Crawler Dateisystemereignisse überwachen und neue, geänderte und entfernte Dateien automatisch verarbeiten.
Ambar unterstützt große Dateien (>30 MB)
Unterstützte Dateitypen:
Hinweis : Für die Ausführung von Ambar ist Docker erforderlich
Sie können Docker-Images selbst erstellen
Alle zum Ausführen von Ambar erforderlichen Images können lokal erstellt werden. Im Allgemeinen kann jedes Image erstellt werden, indem man in das Verzeichnis der betreffenden Komponente navigiert, die erforderlichen Kompilierungsschritte durchführt und das Image wie folgt erstellt:
# From project root
$ cd FrontEnd
$ docker build . -t <image_name>
Auf das resultierende Image kann mit dem angegebenen Namen verwiesen werden und es kann mit dem Containerisierungstool Ihrer Wahl ausgeführt werden.
Um eine lokale Docker-Datei mit docker-compose
zu verwenden, ändern Sie einfach die image
Option in build
und setzen Sie den Wert auf den relativen Pfad des Verzeichnisses, das die Docker-Datei enthält. Führen Sie dann docker-compose build
aus, um die relevanten Bilder zu erstellen. Zum Beispiel:
# docker-compose.yml from project root, referencing local dockerfiles
pipeline0:
build: ./Pipeline/
image: chazu/ambar-pipeline
localcrawler:
image: ./LocalCrawler/
Beachten Sie, dass einige der Komponenten eine Kompilierung oder andere Build-Schritte auf dem Host erfordern, bevor die Docker-Images erstellt werden können. Zum Beispiel FrontEnd
:
# Assuming a suitable version of node.js is installed (docker uses 8.10)
$ npm install
$ npm run compile
Folgen Sie dann dieser Anleitung -> https://ambar.cloud/docs/installation
Ja, es ist vollständig Open Source.
Ja, es ist für immer kostenlos und Open Source.
Ja, es führt OCR für Bilder (JPG, TIFF, BMP usw.) und PDFs durch. OCR wird von der bekannten Open-Source-Bibliothek Tesseract durchgeführt. Wir haben es optimiert, um bei gescannten Dokumenten die beste Leistung und Qualität zu erzielen. Mit tags:ocr
-Abfrage können Sie ganz einfach alle Dateien finden, für die OCR durchgeführt wurde
Unterstützte Sprachen: Eng, Rus, Ita, Deu, Fra, Spa, Pl, Nld.
Ja!
Ja, es kann jedes PDF durchsuchen, auch schlecht codierte PDFs oder Scans darin. Wir haben unser Bestes getan, um die Suche in allen Arten von PDF-Dokumenten reibungslos zu gestalten.
Es ist durch die RAM-Größe Ihres Computers begrenzt, normalerweise sind es 500 MB. Das ist ein beeindruckendes Ergebnis, da typische Dokumentenverwaltungssysteme eine maximale Dateigröße von 30 MB für die Verarbeitung bieten.
Änderungsprotokoll
Datenschutzrichtlinie
MIT-Lizenz