Ambar هو محرك بحث مستندات مفتوح المصدر مزود بالزحف الآلي والتعرف الضوئي على الحروف ووضع العلامات والبحث الفوري عن النص الكامل.
يحدد Ambar طريقة جديدة لتنفيذ البحث في المستندات النصية الكاملة في سير العمل الخاص بك.
docker-compose
واحدالبرنامج التعليمي: إتقان استعلامات البحث أمبار
ambar_en
، الروسية ambar_ru
، الألمانية ambar_de
، الإيطالية ambar_it
، البولندية ambar_pl
، الصينية ambar_cn
، CJK ambar_cjk
يدعم Ambar 2.0 زحف fs المحلي فقط، إذا كنت بحاجة إلى الزحف إلى مشاركة SMB في موقع FTP - فما عليك سوى تثبيته باستخدام أدوات Linux القياسية. يتم الزحف تلقائيًا، ولا يلزم وجود جدول زمني نظرًا لأن برامج الزحف تراقب أحداث نظام الملفات وتقوم تلقائيًا بمعالجة الملفات الجديدة والمتغيرة والمحذوفة.
يدعم Ambar الملفات الكبيرة (> 30 ميجابايت)
أنواع الملفات المدعومة:
ملاحظة : يتطلب Ambar تشغيل Docker
يمكنك إنشاء صور Docker بنفسك
يمكن إنشاء جميع الصور المطلوبة لتشغيل Ambar محليًا. بشكل عام، يمكن إنشاء كل صورة من خلال الانتقال إلى دليل المكون المعني، وتنفيذ خطوات التجميع المطلوبة وبناء الصورة على النحو التالي:
# From project root
$ cd FrontEnd
$ docker build . -t <image_name>
يمكن الإشارة إلى الصورة الناتجة بالاسم المحدد، وتشغيلها بواسطة أدوات النقل بالحاويات التي تختارها.
من أجل استخدام ملف Dockerfile محلي مع docker-compose
، ما عليك سوى تغيير خيار image
build
، وتعيين القيمة على المسار النسبي للدليل الذي يحتوي على ملف Dockerfile. ثم قم بتشغيل docker-compose build
لإنشاء الصور ذات الصلة. على سبيل المثال:
# docker-compose.yml from project root, referencing local dockerfiles
pipeline0:
build: ./Pipeline/
image: chazu/ambar-pipeline
localcrawler:
image: ./LocalCrawler/
لاحظ أن بعض المكونات تتطلب تجميعًا أو تنفيذ خطوات بناء أخرى على المضيف قبل إنشاء صور عامل الإرساء. على سبيل المثال، FrontEnd
:
# Assuming a suitable version of node.js is installed (docker uses 8.10)
$ npm install
$ npm run compile
ثم اتبع هذه التعليمات -> https://ambar.cloud/docs/installation
نعم، إنه مفتوح المصدر بالكامل.
نعم، إنه مجاني ومفتوح المصدر إلى الأبد.
نعم، فهو يقوم بإجراء التعرف الضوئي على الحروف (OCR) على الصور (jpg وtiff وbmp وما إلى ذلك) وملفات PDF. يتم تنفيذ تقنية التعرف الضوئي على الحروف (OCR) بواسطة مكتبة Tesseract الشهيرة مفتوحة المصدر. لقد قمنا بضبطها لتحقيق أفضل أداء وجودة للمستندات الممسوحة ضوئيًا. يمكنك بسهولة العثور على جميع الملفات التي تم إجراء التعرف الضوئي على الحروف عليها باستخدام tags:ocr
اللغات المدعومة: Eng، Rus، Ita، Deu، Fra، Spa، Pl، Nld.
نعم!
نعم، يمكنه البحث في أي ملف PDF، حتى لو كان مشفرًا بشكل سيئ أو مع وجود عمليات مسح ضوئي بداخله. لقد بذلنا قصارى جهدنا لجعل البحث في أي نوع من مستندات PDF سلسًا.
إنها محدودة بحجم ذاكرة الوصول العشوائي (RAM) الموجودة على جهازك، وعادةً ما تكون 500 ميجابايت. إنها نتيجة رائعة، حيث توفر أنظمة إدارة المستندات النموذجية 30 ميجابايت كحد أقصى لحجم الملف المطلوب معالجته.
تغيير السجل
سياسة الخصوصية
رخصة معهد ماساتشوستس للتكنولوجيا