Ambar é um mecanismo de pesquisa de documentos de código aberto com rastreamento automatizado, OCR, marcação e pesquisa instantânea de texto completo.
Ambar define uma nova maneira de implementar pesquisa de documentos de texto completo em seu fluxo de trabalho.
docker-compose
Tutorial: Dominando as consultas de pesquisa Ambar
ambar_en
, russo ambar_ru
, alemão ambar_de
, italiano ambar_it
, polonês ambar_pl
, chinês ambar_cn
, CJK ambar_cjk
O Ambar 2.0 suporta apenas rastreamento fs local, se você precisar rastrear um compartilhamento SMB de um local FTP - basta montá-lo usando ferramentas padrão do Linux. O rastreamento é automático, nenhuma programação é necessária porque os rastreadores monitoram eventos do sistema de arquivos e processam automaticamente arquivos novos, alterados e removidos.
Ambar suporta arquivos grandes (>30 MB)
Tipos de arquivos suportados:
Aviso : Ambar requer que o Docker seja executado
Você pode construir imagens Docker sozinho
Todas as imagens necessárias para executar o Ambar podem ser construídas localmente. Em geral, cada imagem pode ser construída navegando até o diretório do componente em questão, realizando as etapas de compilação necessárias e construindo a imagem assim:
# From project root
$ cd FrontEnd
$ docker build . -t <image_name>
A imagem resultante pode ser referida pelo nome especificado e executada pela ferramenta de conteinerização de sua escolha.
Para usar um Dockerfile local com docker-compose
, basta alterar a opção image
para build
, definindo o valor para o caminho relativo do diretório que contém o Dockerfile. Em seguida, execute docker-compose build
para construir as imagens relevantes. Por exemplo:
# docker-compose.yml from project root, referencing local dockerfiles
pipeline0:
build: ./Pipeline/
image: chazu/ambar-pipeline
localcrawler:
image: ./LocalCrawler/
Observe que alguns dos componentes exigem compilação ou outras etapas de construção no host antes que as imagens do Docker possam ser construídas. Por exemplo, FrontEnd
:
# Assuming a suitable version of node.js is installed (docker uses 8.10)
$ npm install
$ npm run compile
Então siga estas instruções -> https://ambar.cloud/docs/installation
Sim, é totalmente de código aberto.
Sim, é sempre gratuito e de código aberto.
Sim, realiza OCR em imagens (jpg, tiff, bmp, etc) e PDF's. OCR é executado pela conhecida biblioteca de código aberto Tesseract. Nós o ajustamos para obter o melhor desempenho e qualidade em documentos digitalizados. Você pode encontrar facilmente todos os arquivos nos quais o OCR foi executado com tags:ocr
Idiomas suportados: Eng, Rus, Ita, Deu, Fra, Spa, Pl, Nld.
Sim!
Sim, ele pode pesquisar qualquer PDF, mesmo mal codificado ou com digitalizações dentro. Fizemos o nosso melhor para facilitar a pesquisa em qualquer tipo de documento PDF.
É limitado pela quantidade de RAM da sua máquina, normalmente é de 500 MB. É um resultado incrível, já que os sistemas típicos de gerenciamento de documentos oferecem tamanho máximo de arquivo de 30 MB para serem processados.
Registro de alterações
política de Privacidade
Licença MIT