ดาวน์โหลด ambar - ดาวน์โหลดซอร์สโค้ด ambar

ambar

ซอร์สโค้ดอื่น ๆ

Bugfixes release

ดาวน์โหลด

- Ambar: เครื่องมือค้นหาเอกสาร

เก็บถาวรโครงการแล้ว

Ambar เป็นเครื่องมือค้นหาเอกสารโอเพ่นซอร์สพร้อมการรวบรวมข้อมูลอัตโนมัติ OCR การแท็ก และการค้นหาข้อความแบบเต็มทันที

Ambar กำหนดวิธีใหม่ในการใช้การค้นหาเอกสารแบบเต็มในเวิร์กโฟลว์ของคุณ

ปรับใช้ Ambar ได้อย่างง่ายดายด้วยไฟล์ docker-compose เดียว
ทำการค้นหาแบบ Google ผ่านเอกสารและเนื้อหารูปภาพของคุณ
แท็กเอกสารของคุณ
ใช้ REST API แบบง่ายเพื่อรวม Ambar เข้ากับเวิร์กโฟลว์ของคุณ

คุณสมบัติ

ค้นหา

บทช่วยสอน: การเรียนรู้คำค้นหา Ambar

ค้นหาคลุมเครือ (จอห์น ~ 3)
การค้นหาวลี ("จอห์น สมิธ")
ค้นหาตามผู้แต่ง (ผู้เขียน: จอห์น)
ค้นหาตามเส้นทางไฟล์ (ชื่อไฟล์:*.txt)
ค้นหาตามวันที่ (เมื่อ: เมื่อวาน วันนี้ สัปดาห์ที่แล้ว ฯลฯ)
ค้นหาตามขนาด (size>1M)
ค้นหาตามแท็ก (tags:ocr)
ค้นหาในขณะที่คุณพิมพ์
เครื่องวิเคราะห์ภาษาที่รองรับ: ภาษาอังกฤษ ambar_en , รัสเซีย ambar_ru , เยอรมัน ambar_de , อิตาลี ambar_it , โปแลนด์ ambar_pl , จีน ambar_cn , CJK ambar_cjk

กำลังรวบรวมข้อมูล

Ambar 2.0 รองรับการรวบรวมข้อมูล fs ในเครื่องเท่านั้น หากคุณต้องการรวบรวมข้อมูล SMB ที่ใช้ร่วมกันของตำแหน่ง FTP เพียงติดตั้งโดยใช้เครื่องมือ linux มาตรฐาน การรวบรวมข้อมูลเป็นไปโดยอัตโนมัติ ไม่จำเป็นต้องกำหนดเวลาเนื่องจากโปรแกรมรวบรวมข้อมูลจะตรวจสอบเหตุการณ์ของระบบไฟล์และประมวลผลไฟล์ใหม่ ที่ถูกเปลี่ยนแปลง และถูกลบโดยอัตโนมัติ

การสกัดเนื้อหา

Ambar รองรับไฟล์ขนาดใหญ่ (>30MB)

ประเภทไฟล์ที่รองรับ:

ไฟล์ ZIP
คลังจดหมาย (PST)
เอกสาร MS Office (Word, Excel, Powerpoint, Visio, ผู้จัดพิมพ์)
OCR บนรูปภาพ
ข้อความอีเมลพร้อมไฟล์แนบ
Adobe PDF (พร้อม OCR)
ภาษา OCR: Eng, Rus, Ita, Deu, Fra, Spa, Pl, Nld
เอกสาร OpenOffice
RTF ข้อความธรรมดา
HTML/XHTML
การประมวลผลแบบมัลติเธรด

การติดตั้ง

หมายเหตุ : Ambar ต้องการให้ Docker ทำงาน

คุณสามารถสร้างอิมเมจ Docker ได้ด้วยตัวเอง

บทช่วยสอนเกี่ยวกับวิธีสร้างอิมเมจตั้งแต่เริ่มต้น ดูด้านล่าง

การสร้างภาพขึ้นมาเอง

อิมเมจทั้งหมดที่จำเป็นสำหรับการรัน Ambar สามารถสร้างได้ในเครื่อง โดยทั่วไป แต่ละอิมเมจสามารถสร้างขึ้นได้โดยการนำทางไปยังไดเร็กทอรีของคอมโพเนนต์ที่ต้องการ ดำเนินการตามขั้นตอนการคอมไพล์ที่จำเป็น และสร้างอิมเมจดังนี้:

 # From project root
$ cd FrontEnd
$ docker build . -t <image_name>

อิมเมจผลลัพธ์สามารถอ้างอิงตามชื่อที่ระบุ และรันโดยเครื่องมือคอนเทนเนอร์ที่คุณเลือก

ในการใช้ Dockerfile ในเครื่องกับ docker-compose เพียงเปลี่ยนตัวเลือก image เป็น build โดยตั้งค่าเป็นเส้นทางสัมพัทธ์ของไดเร็กทอรีที่มี Dockerfile จากนั้นรัน docker-compose build เพื่อสร้างอิมเมจที่เกี่ยวข้อง ตัวอย่างเช่น:

 # docker-compose.yml from project root, referencing local dockerfiles
pipeline0:
  build: ./Pipeline/
image: chazu/ambar-pipeline
  localcrawler:
    image: ./LocalCrawler/

โปรดทราบว่าส่วนประกอบบางอย่างจำเป็นต้องมีการคอมไพล์หรือขั้นตอนการสร้างอื่นๆ บนโฮสต์ ก่อนจึงจะสามารถสร้างอิมเมจนักเทียบท่าได้ ตัวอย่างเช่น FrontEnd :

 # Assuming a suitable version of node.js is installed (docker uses 8.10)
$ npm install
$ npm run compile

จากนั้นทำตามคำแนะนำนี้ -> https://ambar.cloud/docs/installation

คำถามที่พบบ่อย

มันเป็นโอเพ่นซอร์สหรือไม่?

ใช่ มันเป็นโอเพ่นซอร์สโดยสมบูรณ์

ฟรีหรือเปล่า?

ใช่ มันเป็นบริการแบบโอเพ่นซอร์สฟรีตลอดไป

มันทำ OCR หรือไม่?

ใช่ มันทำ OCR กับรูปภาพ (jpg, tiff, bmp ฯลฯ) และ PDF OCR ดำเนินการโดย Tesseract ไลบรารีโอเพ่นซอร์สที่มีชื่อเสียง เราปรับแต่งเพื่อให้ได้ประสิทธิภาพและคุณภาพสูงสุดในเอกสารที่สแกน คุณสามารถค้นหาไฟล์ทั้งหมดที่ใช้ OCR ได้อย่างง่ายดายด้วย tags:ocr แบบสอบถาม

OCR รองรับภาษาใดบ้าง

ภาษาที่รองรับ: Eng, Rus, Ita, Deu, Fra, Spa, Pl, Nld

รองรับการแท็กหรือไม่?

ใช่!

แล้วการค้นหาในรูปแบบ PDF ล่ะ?

ใช่ มันสามารถค้นหาผ่าน PDF ใดก็ได้ แม้จะเข้ารหัสไม่ดีหรือมีการสแกนอยู่ข้างในก็ตาม เราพยายามอย่างเต็มที่เพื่อให้การค้นหาเอกสาร PDF ทุกประเภทเป็นไปอย่างราบรื่น

ขนาดไฟล์สูงสุดที่สามารถจัดการได้คือเท่าไร?

มันถูกจำกัดด้วยจำนวน RAM บนเครื่องของคุณ โดยปกติแล้วจะอยู่ที่ 500MB นี่เป็นผลลัพธ์ที่ยอดเยี่ยม เนื่องจากระบบการจัดการเอกสารทั่วไปมีขนาดไฟล์สูงสุด 30MB ที่จะประมวลผล