Ambar — это поисковая система документов с открытым исходным кодом, поддерживающая автоматическое сканирование, распознавание текста, тегирование и мгновенный полнотекстовый поиск.
Ambar определяет новый способ внедрения полнотекстового поиска документов в ваш рабочий процесс.
docker-compose
Учебное пособие: освоение поисковых запросов Ambar
ambar_en
, русский ambar_ru
, немецкий ambar_de
, итальянский ambar_it
, польский ambar_pl
, китайский ambar_cn
, CJK ambar_cjk
Ambar 2.0 поддерживает только сканирование локальной файловой системы. Если вам нужно просканировать общий ресурс SMB FTP-расположения - просто смонтируйте его с помощью стандартных инструментов Linux. Сканирование происходит автоматически, расписание не требуется, поскольку сканеры отслеживают события файловой системы и автоматически обрабатывают новые, измененные и удаленные файлы.
Ambar поддерживает большие файлы (>30 МБ).
Поддерживаемые типы файлов:
Примечание . Для запуска Ambar требуется Docker.
Вы можете создавать образы Docker самостоятельно.
Все образы, необходимые для запуска Ambar, можно собрать локально. В общем, каждый образ можно создать, перейдя в каталог соответствующего компонента, выполнив необходимые шаги компиляции и создав образ следующим образом:
# From project root
$ cd FrontEnd
$ docker build . -t <image_name>
На полученное изображение можно ссылаться по указанному имени и запускать его с помощью инструмента контейнеризации по вашему выбору.
Чтобы использовать локальный файл Dockerfile с помощью docker-compose
, просто измените параметр image
на build
, установив в качестве значения относительный путь к каталогу, содержащему файл Dockerfile. Затем запустите docker-compose build
чтобы создать соответствующие изображения. Например:
# docker-compose.yml from project root, referencing local dockerfiles
pipeline0:
build: ./Pipeline/
image: chazu/ambar-pipeline
localcrawler:
image: ./LocalCrawler/
Обратите внимание, что некоторые компоненты требуют выполнения компиляции или других шагов сборки на хосте, прежде чем можно будет построить образы Docker. Например, FrontEnd
:
# Assuming a suitable version of node.js is installed (docker uses 8.10)
$ npm install
$ npm run compile
Затем следуйте этим инструкциям -> https://ambar.cloud/docs/installation.
Да, это полностью открытый исходный код.
Да, это всегда бесплатно и с открытым исходным кодом.
Да, он выполняет распознавание изображений (jpg, tiff, bmp и т. д.) и PDF-файлов. OCR выполняется известной библиотекой с открытым исходным кодом Tesseract. Мы настроили его для достижения наилучшей производительности и качества отсканированных документов. Вы можете легко найти все файлы, для которых было выполнено распознавание текста, с помощью tags:ocr
.
Поддерживаемые языки: Eng, Rus, Ita, Deu, Fra, Spa, Pl, Nld.
Да!
Да, он может искать любой PDF-файл, даже плохо закодированный или со сканами внутри. Мы постарались сделать поиск по любому PDF-документу максимально удобным.
Он ограничен объемом оперативной памяти вашего компьютера, обычно это 500 МБ. Это потрясающий результат, поскольку типичные системы управления документами предлагают максимальный размер обрабатываемого файла 30 МБ.
Журнал изменений
политика конфиденциальности
Лицензия MIT