Ambar est un moteur de recherche de documents open source avec exploration automatisée, OCR, balisage et recherche instantanée en texte intégral.
Ambar définit une nouvelle façon d'implémenter la recherche de documents en texte intégral dans votre flux de travail.
docker-compose
Tutoriel : Maîtriser les requêtes de recherche Ambar
ambar_en
, russe ambar_ru
, allemand ambar_de
, italien ambar_it
, polonais ambar_pl
, chinois ambar_cn
, CJK ambar_cjk
Ambar 2.0 ne prend en charge que l'exploration FS locale. Si vous avez besoin d'explorer un partage SMB d'un emplacement FTP, montez-le simplement à l'aide des outils Linux standard. L'exploration est automatique, aucune planification n'est nécessaire car les robots d'exploration surveillent les événements du système de fichiers et traitent automatiquement les fichiers nouveaux, modifiés et supprimés.
Ambar prend en charge les fichiers volumineux (> 30 Mo)
Types de fichiers pris en charge :
Remarque : Ambar nécessite Docker pour s'exécuter
Vous pouvez créer vous-même des images Docker
Toutes les images requises pour exécuter Ambar peuvent être créées localement. En général, chaque image peut être construite en naviguant dans le répertoire du composant en question, en effectuant les étapes de compilation requises et en construisant l'image comme ceci :
# From project root
$ cd FrontEnd
$ docker build . -t <image_name>
L'image résultante peut être référencée par le nom spécifié et exécutée par l'outil de conteneurisation de votre choix.
Afin d'utiliser un Dockerfile local avec docker-compose
, modifiez simplement l'option image
en build
, en définissant la valeur sur le chemin relatif du répertoire contenant le Dockerfile. Exécutez ensuite docker-compose build
pour créer les images pertinentes. Par exemple:
# docker-compose.yml from project root, referencing local dockerfiles
pipeline0:
build: ./Pipeline/
image: chazu/ambar-pipeline
localcrawler:
image: ./LocalCrawler/
Notez que certains composants nécessitent une compilation ou d'autres étapes de construction sur l'hôte avant que les images Docker puissent être créées. Par exemple, FrontEnd
:
# Assuming a suitable version of node.js is installed (docker uses 8.10)
$ npm install
$ npm run compile
Suivez ensuite ces instructions -> https://ambar.cloud/docs/installation
Oui, c'est entièrement open source.
Oui, c'est toujours gratuit et open source.
Oui, il effectue l'OCR sur les images (jpg, tiff, bmp, etc.) et les PDF. L'OCR est effectuée par la célèbre bibliothèque open source Tesseract. Nous l'avons réglé pour obtenir les meilleures performances et qualité sur les documents numérisés. Vous pouvez facilement retrouver tous les fichiers sur lesquels l'OCR a été effectuée avec tags:ocr
Langues prises en charge : Eng, Rus, Ita, Deu, Fra, Spa, Pl, Nld.
Oui!
Oui, il peut effectuer une recherche dans n'importe quel PDF, même mal encodé ou contenant des scans à l'intérieur. Nous avons fait de notre mieux pour faciliter la recherche sur tout type de document PDF.
Il est limité par la quantité de RAM sur votre ordinateur, généralement 500 Mo. C'est un résultat impressionnant, car les systèmes de gestion de documents classiques offrent une taille de fichier maximale de 30 Mo à traiter.
Journal des modifications
politique de confidentialité
Licence MIT