Ambar adalah mesin pencari dokumen sumber terbuka dengan perayapan otomatis, OCR, penandaan, dan pencarian teks lengkap instan.
Ambar mendefinisikan cara baru untuk menerapkan pencarian dokumen teks lengkap ke dalam alur kerja Anda.
docker-compose
Tutorial: Menguasai Query Pencarian Ambar
ambar_en
Inggris, ambar_ru
Rusia, ambar_de
Jerman, ambar_it
Italia, ambar_pl
Polandia, ambar_cn
China, ambar_cjk
CJKAmbar 2.0 hanya mendukung perayapan fs lokal, jika Anda perlu merayapi bagian SMB dari lokasi FTP - cukup pasang menggunakan alat linux standar. Perayapan bersifat otomatis, tidak diperlukan penjadwalan karena perayap memantau peristiwa sistem file dan secara otomatis memproses file baru, diubah, dan dihapus.
Ambar mendukung file besar (>30MB)
Jenis file yang didukung:
Pemberitahuan : Ambar memerlukan Docker untuk dijalankan
Anda dapat membuat image Docker sendiri
Semua gambar yang diperlukan untuk menjalankan Ambar dapat dibuat secara lokal. Secara umum, setiap image dapat dibuat dengan menavigasi ke direktori komponen yang dimaksud, melakukan langkah-langkah kompilasi yang diperlukan, dan membuat image seperti itu:
# From project root
$ cd FrontEnd
$ docker build . -t <image_name>
Gambar yang dihasilkan dapat dirujuk dengan nama yang ditentukan, dan dijalankan dengan alat containerisasi pilihan Anda.
Untuk menggunakan Dockerfile lokal dengan docker-compose
, cukup ubah opsi image
menjadi build
, atur nilainya ke jalur relatif dari direktori yang berisi Dockerfile. Kemudian jalankan docker-compose build
untuk membuat image yang relevan. Misalnya:
# docker-compose.yml from project root, referencing local dockerfiles
pipeline0:
build: ./Pipeline/
image: chazu/ambar-pipeline
localcrawler:
image: ./LocalCrawler/
Perhatikan bahwa beberapa komponen memerlukan kompilasi atau langkah-langkah pembangunan lainnya dilakukan pada host sebelum gambar buruh pelabuhan dapat dibangun. Misalnya, FrontEnd
:
# Assuming a suitable version of node.js is installed (docker uses 8.10)
$ npm install
$ npm run compile
Kemudian ikuti petunjuk ini -> https://ambar.cloud/docs/installation
Ya, ini sepenuhnya open-source.
Ya, ini selamanya gratis dan bersumber terbuka.
Ya, ia melakukan OCR pada gambar (jpg, tiff, bmp, dll) dan PDF. OCR dilakukan oleh perpustakaan sumber terbuka terkenal Tesseract. Kami menyetelnya untuk mencapai kinerja dan kualitas terbaik pada dokumen yang dipindai. Anda dapat dengan mudah menemukan semua file di mana OCR dilakukan dengan tags:ocr
query
Bahasa yang didukung: Eng, Rus, Ita, Deu, Fra, Spa, Pl, Nld.
Ya!
Ya, ia dapat mencari melalui PDF apa pun, bahkan yang dikodekan dengan buruk atau dengan pindaian di dalamnya. Kami melakukan yang terbaik untuk mempermudah pencarian semua jenis dokumen pdf.
Ini dibatasi oleh jumlah RAM pada mesin Anda, biasanya 500MB. Ini adalah hasil yang luar biasa, karena sistem manajemen dokumen pada umumnya menawarkan ukuran file maksimum 30 MB untuk diproses.
Ubah Log
Kebijakan Privasi
Lisensi MIT