Descargar ambar - Descarga del código fuente ambar

ambar

Otro código fuente

Bugfixes release

Descargar

? Ambar: Buscador de documentos

️ PROYECTO ARCHIVADO ️

Ambar es un motor de búsqueda de documentos de código abierto con rastreo automatizado, OCR, etiquetado y búsqueda instantánea de texto completo.

Ambar define una nueva forma de implementar la búsqueda de documentos de texto completo en su flujo de trabajo.

Implemente Ambar fácilmente con un único archivo docker-compose
Realice una búsqueda similar a la de Google a través de sus documentos y contenidos de sus imágenes.
Etiqueta tus documentos
Utilice una API REST simple para integrar Ambar en su flujo de trabajo

Características

Buscar

Tutorial: Dominar las consultas de búsqueda de Ambar

Búsqueda difusa (John~3)
Búsqueda de frases ("John Smith")
Buscar por autor (autor:John)
Buscar por ruta de archivo (nombre de archivo:*.txt)
Buscar por fecha (cuándo: ayer, hoy, la semana pasada, etc.)
Buscar por tamaño (tamaño>1M)
Buscar por etiquetas (etiquetas:ocr)
Busque mientras escribe
Analizadores de idiomas admitidos: inglés ambar_en , ruso ambar_ru , alemán ambar_de , italiano ambar_it , polaco ambar_pl , chino ambar_cn , CJK ambar_cjk

Arrastrándose

Ambar 2.0 solo admite el rastreo de fs local; si necesita rastrear un recurso compartido SMB de una ubicación FTP, simplemente móntelo usando herramientas estándar de Linux. El rastreo es automático, no se necesita programación debido a que los rastreadores monitorean los eventos del sistema de archivos y procesan automáticamente archivos nuevos, modificados y eliminados.

Extracción de contenido

Ambar admite archivos grandes (>30 MB)

Tipos de archivos admitidos:

archivos ZIP
Archivos de correo (PST)
Documentos de MS Office (Word, Excel, Powerpoint, Visio, Publisher)
OCR sobre imágenes
Mensajes de correo electrónico con archivos adjuntos
Adobe PDF (con OCR)
Idiomas OCR: Eng, Rus, Ita, Deu, Fra, Spa, Pl, Nld
Documentos de OpenOffice
RTF, texto sin formato
HTML/XHTML
Procesamiento multiproceso

Instalación

Aviso : Ambar requiere que Docker se ejecute

Puedes crear imágenes de Docker tú mismo

Tutorial sobre cómo crear imágenes desde cero, ver más abajo

Construyendo las imágenes usted mismo

Todas las imágenes necesarias para ejecutar Ambar se pueden crear localmente. En general, cada imagen se puede construir navegando al directorio del componente en cuestión, realizando los pasos de compilación necesarios y construyendo la imagen así:

 # From project root
$ cd FrontEnd
$ docker build . -t <image_name>

Se puede hacer referencia a la imagen resultante con el nombre especificado y ejecutarla mediante la herramienta de contenedorización de su elección.

Para utilizar un Dockerfile local con docker-compose , simplemente cambie la opción image a build , estableciendo el valor en la ruta relativa del directorio que contiene el Dockerfile. Luego ejecute docker-compose build para crear las imágenes relevantes. Por ejemplo:

 # docker-compose.yml from project root, referencing local dockerfiles
pipeline0:
  build: ./Pipeline/
image: chazu/ambar-pipeline
  localcrawler:
    image: ./LocalCrawler/

Tenga en cuenta que algunos de los componentes requieren compilación u otros pasos de compilación en el host antes de poder compilar las imágenes de la ventana acoplable. Por ejemplo, FrontEnd :

 # Assuming a suitable version of node.js is installed (docker uses 8.10)
$ npm install
$ npm run compile

Luego siga estas instrucciones -> https://ambar.cloud/docs/installation

Preguntas frecuentes

¿Es de código abierto?

Sí, es completamente de código abierto.

¿Es gratis?

Sí, siempre será gratuito y de código abierto.

¿Realiza OCR?

Sí, realiza OCR en imágenes (jpg, tiff, bmp, etc.) y PDF. El OCR lo realiza la conocida biblioteca de código abierto Tesseract. Lo ajustamos para lograr el mejor rendimiento y calidad en los documentos escaneados. Puede encontrar fácilmente todos los archivos en los que se realizó OCR con tags:ocr

¿Qué idiomas son compatibles con OCR?

Idiomas admitidos: Eng, Rus, Ita, Deu, Fra, Spa, Pl, Nld.

¿Admite etiquetado?

¡Sí!

¿Qué pasa con la búsqueda en PDF?

Sí, puede buscar en cualquier PDF, incluso mal codificado o con escaneos en su interior. Hicimos todo lo posible para que la búsqueda en cualquier tipo de documento pdf sea fluida.

¿Cuál es el tamaño máximo de archivo que puede manejar?

Está limitado por la cantidad de RAM de su máquina, normalmente es de 500 MB. Es un resultado sorprendente, ya que los sistemas típicos de gestión de documentos ofrecen un tamaño de archivo máximo de 30 MB para procesar.