Ambar 是一個開源文件搜尋引擎,具有自動爬行、OCR、標記和即時全文搜尋功能。
Ambar 定義了一種在工作流程中實作全文文件搜尋的新方法。
docker-compose
檔案輕鬆部署 Ambar教學:掌握 Ambar 搜尋查詢
ambar_en
、俄語ambar_ru
、德語ambar_de
、義大利語ambar_it
、波蘭語ambar_pl
、中文ambar_cn
、CJK ambar_cjk
Ambar 2.0 僅支援本機 fs 爬行,如果您需要爬行 FTP 位置的 SMB 共用 - 只需使用標準 Linux 工具掛載即可。爬網是自動的,不需要計劃,因為爬網程序會監視檔案系統事件並自動處理新的、更改的和刪除的檔案。
Ambar 支援大檔案 (>30MB)
支援的文件類型:
注意:Ambar 需要 Docker 才能運行
您可以自行建置 Docker 映像
運行 Ambar 所需的所有映像都可以在本地建置。一般來說,可以透過導航到相關組件的目錄、執行所需的編譯步驟並建立圖像來建立每個圖像,如下所示:
# From project root
$ cd FrontEnd
$ docker build . -t <image_name>
產生的映像可以透過指定的名稱引用,並由您選擇的容器化工具運行。
為了將本機 Dockerfile 與docker-compose
一起使用,只需將image
選項變更為build
,並將值設為包含 Dockerfile 的目錄的相對路徑。然後執行docker-compose build
來建置相關映像。例如:
# docker-compose.yml from project root, referencing local dockerfiles
pipeline0:
build: ./Pipeline/
image: chazu/ambar-pipeline
localcrawler:
image: ./LocalCrawler/
請注意,某些元件需要在建置 docker 映像之前在主機上執行編譯或其他建置步驟。例如, FrontEnd
:
# Assuming a suitable version of node.js is installed (docker uses 8.10)
$ npm install
$ npm run compile
然後按照此說明操作 -> https://ambar.cloud/docs/installation
是的,它是完全開源的。
是的,它永遠免費且開源。
是的,它對圖像(jpg、tiff、bmp 等)和 PDF 執行 OCR。 OCR由著名的開源程式庫Tesseract執行。我們對其進行了調整,以在掃描文件上實現最佳效能和品質。您可以使用tags:ocr
查詢
支援的語言:英語、俄語、義大利語、德語、法語、西班牙語、波蘭語、荷蘭語。
是的!
是的,它可以搜尋任何 PDF,即使是編碼錯誤或內部有掃描件的 PDF。我們盡最大努力使任何類型的 pdf 文件的搜尋變得順利。
它受到電腦上 RAM 量的限制,通常為 500MB。這是一個很棒的結果,因為典型的文件管理系統最多可處理 30MB 的檔案大小。
變更日誌
隱私權政策
麻省理工學院許可證