Ambar เป็นเครื่องมือค้นหาเอกสารโอเพ่นซอร์สพร้อมการรวบรวมข้อมูลอัตโนมัติ OCR การแท็ก และการค้นหาข้อความแบบเต็มทันที
Ambar กำหนดวิธีใหม่ในการใช้การค้นหาเอกสารแบบเต็มในเวิร์กโฟลว์ของคุณ
docker-compose
เดียวบทช่วยสอน: การเรียนรู้คำค้นหา Ambar
ambar_en
, รัสเซีย ambar_ru
, เยอรมัน ambar_de
, อิตาลี ambar_it
, โปแลนด์ ambar_pl
, จีน ambar_cn
, CJK ambar_cjk
Ambar 2.0 รองรับการรวบรวมข้อมูล fs ในเครื่องเท่านั้น หากคุณต้องการรวบรวมข้อมูล SMB ที่ใช้ร่วมกันของตำแหน่ง FTP เพียงติดตั้งโดยใช้เครื่องมือ linux มาตรฐาน การรวบรวมข้อมูลเป็นไปโดยอัตโนมัติ ไม่จำเป็นต้องกำหนดเวลาเนื่องจากโปรแกรมรวบรวมข้อมูลจะตรวจสอบเหตุการณ์ของระบบไฟล์และประมวลผลไฟล์ใหม่ ที่ถูกเปลี่ยนแปลง และถูกลบโดยอัตโนมัติ
Ambar รองรับไฟล์ขนาดใหญ่ (>30MB)
ประเภทไฟล์ที่รองรับ:
หมายเหตุ : Ambar ต้องการให้ Docker ทำงาน
คุณสามารถสร้างอิมเมจ Docker ได้ด้วยตัวเอง
อิมเมจทั้งหมดที่จำเป็นสำหรับการรัน Ambar สามารถสร้างได้ในเครื่อง โดยทั่วไป แต่ละอิมเมจสามารถสร้างขึ้นได้โดยการนำทางไปยังไดเร็กทอรีของคอมโพเนนต์ที่ต้องการ ดำเนินการตามขั้นตอนการคอมไพล์ที่จำเป็น และสร้างอิมเมจดังนี้:
# From project root
$ cd FrontEnd
$ docker build . -t <image_name>
อิมเมจผลลัพธ์สามารถอ้างอิงตามชื่อที่ระบุ และรันโดยเครื่องมือคอนเทนเนอร์ที่คุณเลือก
ในการใช้ Dockerfile ในเครื่องกับ docker-compose
เพียงเปลี่ยนตัวเลือก image
เป็น build
โดยตั้งค่าเป็นเส้นทางสัมพัทธ์ของไดเร็กทอรีที่มี Dockerfile จากนั้นรัน docker-compose build
เพื่อสร้างอิมเมจที่เกี่ยวข้อง ตัวอย่างเช่น:
# docker-compose.yml from project root, referencing local dockerfiles
pipeline0:
build: ./Pipeline/
image: chazu/ambar-pipeline
localcrawler:
image: ./LocalCrawler/
โปรดทราบว่าส่วนประกอบบางอย่างจำเป็นต้องมีการคอมไพล์หรือขั้นตอนการสร้างอื่นๆ บนโฮสต์ ก่อนจึงจะสามารถสร้างอิมเมจนักเทียบท่าได้ ตัวอย่างเช่น FrontEnd
:
# Assuming a suitable version of node.js is installed (docker uses 8.10)
$ npm install
$ npm run compile
จากนั้นทำตามคำแนะนำนี้ -> https://ambar.cloud/docs/installation
ใช่ มันเป็นโอเพ่นซอร์สโดยสมบูรณ์
ใช่ มันเป็นบริการแบบโอเพ่นซอร์สฟรีตลอดไป
ใช่ มันทำ OCR กับรูปภาพ (jpg, tiff, bmp ฯลฯ) และ PDF OCR ดำเนินการโดย Tesseract ไลบรารีโอเพ่นซอร์สที่มีชื่อเสียง เราปรับแต่งเพื่อให้ได้ประสิทธิภาพและคุณภาพสูงสุดในเอกสารที่สแกน คุณสามารถค้นหาไฟล์ทั้งหมดที่ใช้ OCR ได้อย่างง่ายดายด้วย tags:ocr
แบบสอบถาม
ภาษาที่รองรับ: Eng, Rus, Ita, Deu, Fra, Spa, Pl, Nld
ใช่!
ใช่ มันสามารถค้นหาผ่าน PDF ใดก็ได้ แม้จะเข้ารหัสไม่ดีหรือมีการสแกนอยู่ข้างในก็ตาม เราพยายามอย่างเต็มที่เพื่อให้การค้นหาเอกสาร PDF ทุกประเภทเป็นไปอย่างราบรื่น
มันถูกจำกัดด้วยจำนวน RAM บนเครื่องของคุณ โดยปกติแล้วจะอยู่ที่ 500MB นี่เป็นผลลัพธ์ที่ยอดเยี่ยม เนื่องจากระบบการจัดการเอกสารทั่วไปมีขนาดไฟล์สูงสุด 30MB ที่จะประมวลผล
เปลี่ยนบันทึก
นโยบายความเป็นส่วนตัว
ใบอนุญาตเอ็มไอที