Ambar 是一个开源文档搜索引擎,具有自动爬行、OCR、标记和即时全文搜索功能。
Ambar 定义了一种在工作流程中实施全文文档搜索的新方法。
docker-compose
文件轻松部署 Ambar教程:掌握 Ambar 搜索查询
ambar_en
、俄语ambar_ru
、德语ambar_de
、意大利语ambar_it
、波兰语ambar_pl
、中文ambar_cn
、CJK ambar_cjk
Ambar 2.0 仅支持本地 fs 爬行,如果您需要爬行 FTP 位置的 SMB 共享 - 只需使用标准 Linux 工具挂载即可。爬网是自动的,不需要计划,因为爬网程序会监视文件系统事件并自动处理新的、更改的和删除的文件。
Ambar 支持大文件 (>30MB)
支持的文件类型:
注意:Ambar 需要 Docker 才能运行
您可以自己构建 Docker 镜像
运行 Ambar 所需的所有映像都可以在本地构建。一般来说,可以通过导航到相关组件的目录、执行所需的编译步骤并构建图像来构建每个图像,如下所示:
# From project root
$ cd FrontEnd
$ docker build . -t <image_name>
生成的映像可以通过指定的名称引用,并由您选择的容器化工具运行。
为了将本地 Dockerfile 与docker-compose
一起使用,只需将image
选项更改为build
,并将值设置为包含 Dockerfile 的目录的相对路径。然后运行docker-compose build
来构建相关镜像。例如:
# docker-compose.yml from project root, referencing local dockerfiles
pipeline0:
build: ./Pipeline/
image: chazu/ambar-pipeline
localcrawler:
image: ./LocalCrawler/
请注意,某些组件需要在构建 docker 映像之前在主机上执行编译或其他构建步骤。例如, FrontEnd
:
# Assuming a suitable version of node.js is installed (docker uses 8.10)
$ npm install
$ npm run compile
然后按照此说明操作 -> https://ambar.cloud/docs/installation
是的,它是完全开源的。
是的,它永远免费且开源。
是的,它对图像(jpg、tiff、bmp 等)和 PDF 执行 OCR。 OCR由著名的开源库Tesseract执行。我们对其进行了调整,以在扫描文档上实现最佳性能和质量。您可以使用tags:ocr
查询
支持的语言:英语、俄语、意大利语、德语、法语、西班牙语、波兰语、荷兰语。
是的!
是的,它可以搜索任何 PDF,即使是编码错误或内部有扫描件的 PDF。我们尽最大努力使任何类型的 pdf 文档的搜索变得顺利。
它受到计算机上 RAM 量的限制,通常为 500MB。这是一个很棒的结果,因为典型的文档管理系统最多可处理 30MB 的文件大小。
变更日志
隐私政策
麻省理工学院许可证