Ambar es un motor de búsqueda de documentos de código abierto con rastreo automatizado, OCR, etiquetado y búsqueda instantánea de texto completo.
Ambar define una nueva forma de implementar la búsqueda de documentos de texto completo en su flujo de trabajo.
docker-compose
Tutorial: Dominar las consultas de búsqueda de Ambar
ambar_en
, ruso ambar_ru
, alemán ambar_de
, italiano ambar_it
, polaco ambar_pl
, chino ambar_cn
, CJK ambar_cjk
Ambar 2.0 solo admite el rastreo de fs local; si necesita rastrear un recurso compartido SMB de una ubicación FTP, simplemente móntelo usando herramientas estándar de Linux. El rastreo es automático, no se necesita programación debido a que los rastreadores monitorean los eventos del sistema de archivos y procesan automáticamente archivos nuevos, modificados y eliminados.
Ambar admite archivos grandes (>30 MB)
Tipos de archivos admitidos:
Aviso : Ambar requiere que Docker se ejecute
Puedes crear imágenes de Docker tú mismo
Todas las imágenes necesarias para ejecutar Ambar se pueden crear localmente. En general, cada imagen se puede construir navegando al directorio del componente en cuestión, realizando los pasos de compilación necesarios y construyendo la imagen así:
# From project root
$ cd FrontEnd
$ docker build . -t <image_name>
Se puede hacer referencia a la imagen resultante con el nombre especificado y ejecutarla mediante la herramienta de contenedorización de su elección.
Para utilizar un Dockerfile local con docker-compose
, simplemente cambie la opción image
a build
, estableciendo el valor en la ruta relativa del directorio que contiene el Dockerfile. Luego ejecute docker-compose build
para crear las imágenes relevantes. Por ejemplo:
# docker-compose.yml from project root, referencing local dockerfiles
pipeline0:
build: ./Pipeline/
image: chazu/ambar-pipeline
localcrawler:
image: ./LocalCrawler/
Tenga en cuenta que algunos de los componentes requieren compilación u otros pasos de compilación en el host antes de poder compilar las imágenes de la ventana acoplable. Por ejemplo, FrontEnd
:
# Assuming a suitable version of node.js is installed (docker uses 8.10)
$ npm install
$ npm run compile
Luego siga estas instrucciones -> https://ambar.cloud/docs/installation
Sí, es completamente de código abierto.
Sí, siempre será gratuito y de código abierto.
Sí, realiza OCR en imágenes (jpg, tiff, bmp, etc.) y PDF. El OCR lo realiza la conocida biblioteca de código abierto Tesseract. Lo ajustamos para lograr el mejor rendimiento y calidad en los documentos escaneados. Puede encontrar fácilmente todos los archivos en los que se realizó OCR con tags:ocr
Idiomas admitidos: Eng, Rus, Ita, Deu, Fra, Spa, Pl, Nld.
¡Sí!
Sí, puede buscar en cualquier PDF, incluso mal codificado o con escaneos en su interior. Hicimos todo lo posible para que la búsqueda en cualquier tipo de documento pdf sea fluida.
Está limitado por la cantidad de RAM de su máquina, normalmente es de 500 MB. Es un resultado sorprendente, ya que los sistemas típicos de gestión de documentos ofrecen un tamaño de archivo máximo de 30 MB para procesar.
Registro de cambios
política de privacidad
Licencia MIT