Ambar は、自動化されたクロール、OCR、タグ付け、インスタント全文検索を備えたオープンソースのドキュメント検索エンジンです。
Ambar は、全文ドキュメント検索をワークフローに実装する新しい方法を定義します。
docker-compose
ファイルで Ambar を簡単にデプロイチュートリアル: Ambar 検索クエリをマスターする
ambar_en
、ロシア語ambar_ru
、ドイツ語ambar_de
、イタリア語ambar_it
、ポーランド語ambar_pl
、中国語ambar_cn
、CJK ambar_cjk
Ambar 2.0 はローカル fs クロールのみをサポートします。FTP ロケーションの SMB 共有をクロールする必要がある場合は、標準の Linux ツールを使用してマウントするだけです。クロールは自動で、クローラーがファイル システム イベントを監視し、新しいファイル、変更されたファイル、削除されたファイルを自動的に処理するため、スケジュールは必要ありません。
Ambar は大きなファイル (>30MB) をサポートします
サポートされているファイルの種類:
注意: Ambar では Docker を実行する必要があります
自分でDockerイメージを構築できる
Ambar の実行に必要なイメージはすべてローカルで構築できます。一般に、各イメージは、問題のコンポーネントのディレクトリに移動し、必要なコンパイル手順を実行して、次のようにイメージを構築することで構築できます。
# From project root
$ cd FrontEnd
$ docker build . -t <image_name>
結果のイメージは、指定した名前で参照でき、選択したコンテナ化ツールで実行できます。
docker-compose
でローカルの Dockerfile を使用するには、 image
オプションをbuild
に変更し、値を Dockerfile を含むディレクトリの相対パスに設定します。次に、 docker-compose build
実行して、関連するイメージをビルドします。例えば:
# docker-compose.yml from project root, referencing local dockerfiles
pipeline0:
build: ./Pipeline/
image: chazu/ambar-pipeline
localcrawler:
image: ./LocalCrawler/
一部のコンポーネントでは、Docker イメージをビルドする前に、ホスト上でコンパイルまたは他のビルド手順を実行する必要があることに注意してください。たとえば、 FrontEnd
:
# Assuming a suitable version of node.js is installed (docker uses 8.10)
$ npm install
$ npm run compile
次に、この手順に従ってください -> https://ambar.cloud/docs/installation
はい、完全にオープンソースです。
はい、永久に無料でオープンソースです。
はい、画像 (jpg、tiff、bmp など) と PDF に対して OCR を実行します。 OCR は、よく知られたオープンソース ライブラリ Tesseract によって実行されます。スキャンされたドキュメントで最高のパフォーマンスと品質を達成できるように調整しました。 tags:ocr
クエリを使用すると、OCR が実行されたすべてのファイルを簡単に見つけることができます。
サポートされている言語: 英語、ロシア語、イタリア語、ドイツ語、フラ語、スパ語、スペイン語、ノルウェー語。
はい!
はい、どんな PDF であっても、エンコードが不十分であったり、スキャンが含まれている場合でも検索できます。私たちは、あらゆる種類の PDF ドキュメントの検索をスムーズにするために最善を尽くしました。
マシン上の RAM の量によって制限され、通常は 500MB です。一般的なドキュメント管理システムでは処理できる最大ファイル サイズが 30 MB であるため、これは素晴らしい結果です。
変更ログ
プライバシーポリシー
MITライセンス