Unduh ambar - unduh kode sumber ambar

ambar

Kode sumber lainnya

Bugfixes release

Unduh

? Ambar: Mesin Pencari Dokumen

️ PROYEK DIARsipkan ️

Ambar adalah mesin pencari dokumen sumber terbuka dengan perayapan otomatis, OCR, penandaan, dan pencarian teks lengkap instan.

Ambar mendefinisikan cara baru untuk menerapkan pencarian dokumen teks lengkap ke dalam alur kerja Anda.

Terapkan Ambar dengan mudah menggunakan satu file docker-compose
Lakukan pencarian seperti Google melalui dokumen dan konten gambar Anda
Tandai dokumen Anda
Gunakan REST API sederhana untuk mengintegrasikan Ambar ke dalam alur kerja Anda

Fitur

Mencari

Tutorial: Menguasai Query Pencarian Ambar

Pencarian Fuzzy (John~3)
Pencarian Frasa ("John Smith")
Cari Berdasarkan Penulis (penulis: John)
Cari Berdasarkan Jalur File (nama file:*.txt)
Cari Berdasarkan Tanggal (kapan: kemarin, hari ini, minggu lalu, dll)
Cari Berdasarkan Ukuran (ukuran>1M)
Cari Berdasarkan Tag (tag:ocr)
Cari Saat Anda Mengetik
Penganalisis bahasa yang didukung: ambar_en Inggris, ambar_ru Rusia, ambar_de Jerman, ambar_it Italia, ambar_pl Polandia, ambar_cn China, ambar_cjk CJK

Merangkak

Ambar 2.0 hanya mendukung perayapan fs lokal, jika Anda perlu merayapi bagian SMB dari lokasi FTP - cukup pasang menggunakan alat linux standar. Perayapan bersifat otomatis, tidak diperlukan penjadwalan karena perayap memantau peristiwa sistem file dan secara otomatis memproses file baru, diubah, dan dihapus.

Ekstraksi Konten

Ambar mendukung file besar (>30MB)

Jenis file yang didukung:

Arsip ZIP
Arsip surat (PST)
Dokumen MS Office (Word, Excel, Powerpoint, Visio, Publisher)
OCR atas gambar
Pesan email dengan lampiran
Adobe PDF (dengan OCR)
Bahasa OCR: Eng, Rus, Ita, Deu, Fra, Spa, Pl, Nld
dokumen OpenOffice
RTF, Teks Biasa
HTML/XHTML
Pemrosesan multithread

Instalasi

Pemberitahuan : Ambar memerlukan Docker untuk dijalankan

Anda dapat membuat image Docker sendiri

Tutorial cara membuat gambar dari awal lihat di bawah

Membangun gambar sendiri

Semua gambar yang diperlukan untuk menjalankan Ambar dapat dibuat secara lokal. Secara umum, setiap image dapat dibuat dengan menavigasi ke direktori komponen yang dimaksud, melakukan langkah-langkah kompilasi yang diperlukan, dan membuat image seperti itu:

 # From project root
$ cd FrontEnd
$ docker build . -t <image_name>

Gambar yang dihasilkan dapat dirujuk dengan nama yang ditentukan, dan dijalankan dengan alat containerisasi pilihan Anda.

Untuk menggunakan Dockerfile lokal dengan docker-compose , cukup ubah opsi image menjadi build , atur nilainya ke jalur relatif dari direktori yang berisi Dockerfile. Kemudian jalankan docker-compose build untuk membuat image yang relevan. Misalnya:

 # docker-compose.yml from project root, referencing local dockerfiles
pipeline0:
  build: ./Pipeline/
image: chazu/ambar-pipeline
  localcrawler:
    image: ./LocalCrawler/

Perhatikan bahwa beberapa komponen memerlukan kompilasi atau langkah-langkah pembangunan lainnya dilakukan pada host sebelum gambar buruh pelabuhan dapat dibangun. Misalnya, FrontEnd :

 # Assuming a suitable version of node.js is installed (docker uses 8.10)
$ npm install
$ npm run compile

Kemudian ikuti petunjuk ini -> https://ambar.cloud/docs/installation

Pertanyaan Umum

Apakah ini sumber terbuka?

Ya, ini sepenuhnya open-source.

Apakah ini gratis?

Ya, ini selamanya gratis dan bersumber terbuka.

Apakah itu melakukan OCR?

Ya, ia melakukan OCR pada gambar (jpg, tiff, bmp, dll) dan PDF. OCR dilakukan oleh perpustakaan sumber terbuka terkenal Tesseract. Kami menyetelnya untuk mencapai kinerja dan kualitas terbaik pada dokumen yang dipindai. Anda dapat dengan mudah menemukan semua file di mana OCR dilakukan dengan tags:ocr query

Bahasa apa saja yang didukung untuk OCR?

Bahasa yang didukung: Eng, Rus, Ita, Deu, Fra, Spa, Pl, Nld.

Apakah ini mendukung penandaan?

Ya!

Bagaimana dengan mencari dalam PDF?

Ya, ia dapat mencari melalui PDF apa pun, bahkan yang dikodekan dengan buruk atau dengan pindaian di dalamnya. Kami melakukan yang terbaik untuk mempermudah pencarian semua jenis dokumen pdf.

Berapa ukuran file maksimum yang dapat ditanganinya?

Ini dibatasi oleh jumlah RAM pada mesin Anda, biasanya 500MB. Ini adalah hasil yang luar biasa, karena sistem manajemen dokumen pada umumnya menawarkan ukuran file maksimum 30 MB untuk diproses.