العرض التوضيحي : sist2.simon987.net
عنوان URL للمجتمع: الخلاف
sist2 (أداة بحث تزايدية بسيطة)
تحذير: sist2 في مرحلة التطوير المبكرة
* انظر دعم التنسيق
** انظر ملفات الأرشيف
*** انظر التعرف الضوئي على الحروف
**** راجع التعرف على الكيانات المسماة
version : " 3 "
services :
elasticsearch :
image : elasticsearch:7.17.9
restart : unless-stopped
volumes :
# This directory must have 1000:1000 permissions (or update PUID & PGID below)
- /data/sist2-es-data/:/usr/share/elasticsearch/data
environment :
- " discovery.type=single-node "
- " ES_JAVA_OPTS=-Xms2g -Xmx2g "
- " PUID=1000 "
- " PGID=1000 "
sist2-admin :
image : simon987/sist2:3.4.2-x64-linux
restart : unless-stopped
volumes :
- /data/sist2-admin-data/:/sist2-admin/
- /:/host
ports :
- 4090:4090
# NOTE: Don't expose this port publicly!
- 8080:8080
working_dir : /root/sist2-admin/
entrypoint : python3
command :
- /root/sist2-admin/sist2_admin/app.py
انتقل إلى http://localhost:8080/ لتكوين sist2-admin.
اختر الواجهة الخلفية للبحث (انظر المقارنة):
docker run -d -p 9200:9200 -e " discovery.type=single-node " elasticsearch:7.17.9
تحميل الاصدار الاخير من sist2. حدد الملف المطابق لبنية وحدة المعالجة المركزية الخاصة بك وقم بوضع علامة على الملف الثنائي باعتباره قابلاً للتنفيذ باستخدام chmod +x
.
راجع دليل الاستخدام لاستخدام سطر الأوامر.
مثال على الاستخدام:
sist2 scan ~/Documents --output ./documents.sist2
sist2 index --es-url http://localhost:9200 ./documents.sist2
sist2 sqlite-index --search-index ./search.sist2 ./documents.sist2
sist2 web ./documents.sist2
sist2 web --search-index ./search.sist2 ./documents.sist2
نوع الملف | مكتبة | محتوى | صورة مصغرة | البيانات الوصفية |
---|---|---|---|---|
قوات الدفاع الشعبي، XPS، FB2، النشر الإلكتروني | MuPDF | نص + التعرف على الحروف | نعم | المؤلف، العنوان |
سي بي زي، سي بي آر | libscan | - | نعم | - |
audio/* | ffmpeg | - | نعم | علامات ID3 |
video/* | ffmpeg | - | نعم | العنوان، التعليق، الفنان |
image/* | ffmpeg | التعرف على الوجه | نعم | علامات EXIF الشائعة وعلامات GPS |
الخام، rw2، dng، cr2، crw، dcr، k25، kdc، mrw، pef، xf3، arw، sr2، srf، erf | ليب راو | لا | نعم | علامات EXIF الشائعة وعلامات GPS |
مؤسسة تي تي إف، تي تي سي، سي إف إف، ووف، فنت، أو تي إف | النوع الحر2 | - | نعم، bmp | الاسم والأسلوب |
text/plain | libscan | نعم | لا | - |
أتش تي أم أل، أكس أم أل | libscan | نعم | لا | - |
القطران، الرمز البريدي، رر، 7Z، ع ... | ليبارشيف | نعم* | - | لا |
دوكإكس، XLSX، PPTX | libscan | نعم | إذا جزءا لا يتجزأ | منشئ المحتوى، تم تعديله بواسطة، العنوان |
مستند (MS Word 97-2003) | مضاد الكلمة | نعم | لا | المؤلف، العنوان |
موبي، أزو، azw3 | libmobi | نعم | نعم | المؤلف، العنوان |
وبد (وورد بيرفكت) | libwpd | نعم | لا | المخطط لها |
جسون، جسونل، ندجسون | libscan | نعم | - | - |
* انظر ملفات الأرشيف
سيقوم sist2 بفحص الملفات المخزنة في ملفات الأرشيف (zip، tar، 7z...) كما لو كانت موجودة مباشرة في نظام الملفات. يتم أيضًا دعم الفحص العودي (الأرشيفات داخل الأرشيفات).
القيود :
.gif
و .mp4
مع بيانات التعريف المجزأة وما إلى ذلك) محدودًا (راجع خيار --mem-buffer
) يمكنك تمكين دعم التعرف الضوئي على الحروف للكتب الإلكترونية (pdf، xps، fb2، epub) أو أنواع ملفات الصور باستخدام خيار --ocr-lang
بالاشتراك مع --ocr-images
و/أو --ocr-ebooks
. قم بتنزيل ملفات بيانات اللغة باستخدام مدير الحزم الخاص بك ( apt install tesseract-ocr-eng
) أو مباشرة من Github.
تأتي صورة simon987/sist2
مع اللغات الشائعة (hin، jpn، eng، fra، rus، spa، chi_sim، deu، pol) المثبتة مسبقًا.
يمكنك استخدام الفاصل +
لتحديد لغات متعددة. يجب أن يكون اسم اللغة مطابقًا لملف *.traineddata
المثبت على نظامك (استخدم chi_sim
بدلاً من chi-sim
).
أمثلة:
sist2 scan --ocr-ebooks --ocr-lang jpn ~ /Books/Manga/
sist2 scan --ocr-images --ocr-lang eng ~ /Images/Screenshots/
sist2 scan --ocr-ebooks --ocr-images --ocr-lang eng+chi_sim ~ /Chinese-Bilingual/
يدعم sist2 v3.0.7+ الواجهة الخلفية لبحث SQLite. تحتوي الواجهة الخلفية لبحث SQLite على ميزات أقل وأداء استعلام قابل للمقارنة بشكل عام للمؤشرات متوسطة الحجم، ولكنها تستخدم ذاكرة أقل بكثير وأسهل في الإعداد.
سكليتي | بحث مرن | |
---|---|---|
يتطلب تثبيت محرك بحث منفصل | ✓ | |
بصمة الذاكرة | ~20 ميغابايت | > 500 ميجابايت |
بناء جملة الاستعلام | fts5 | query_string |
بحث غامض | ✓ | |
تحديث شجرة أنواع الوسائط في الوقت الفعلي | ✓ | |
وضع العلامات اليدوية | ✓ | ✓ |
البرامج النصية للمستخدم | ✓ | ✓ |
تفاصيل نوع الوسائط لنتائج البحث | ✓ | |
بحث التضمينات | ✓ يا (ن) | ✓ يا (تسجيل الدخول) |
يدعم sist2 v3.0.4+ التعرف على الكيانات المسماة (NER). ما عليك سوى إضافة عنوان URL للمستودع المدعوم إلى التكوين > خيارات التعلم الآلي > مستودعات النماذج لتمكينه.
تتم معالجة النص في متصفحك، ولا يتم إرسال أي بيانات إلى أي خدمات خارجية. راجع نماذج simon987/sist2-ner لمزيد من التفاصيل.
عنوان URL | معيل | غاية |
---|---|---|
simon987/sist2-ner-models | سيمون987 | عام |
يمكنك تجميع sist2 بنفسك إذا كنت لا ترغب في استخدام الثنائيات المجمعة مسبقًا
git clone --recursive https://github.com/simon987/sist2/
cd sist2
docker build . -t my-sist2-image
# Copy sist2 executable from docker image
docker run --rm --entrypoint cat my-sist2-image /root/sist2 > sist2-x64-linux
تثبيت تبعيات وقت الترجمة
apt install gcc g++ python3 yasm ragel automake autotools-dev wget libtool libssl-dev curl zip unzip tar xorg-dev libglu1-mesa-dev libxcursor-dev libxml2-dev libxinerama-dev gettext nasm git nodejs
قم بتثبيت vcpkg باستخدام الشوكة الخاصة بي: https://github.com/simon987/vcpkg
تثبيت تبعيات vcpkg
vcpkg install openblas curl[core,openssl] sqlite3[core,fts5,json1] cpp-jwt pcre cjson brotli libarchive[core,bzip2,libxml2,lz4,lzma,lzo] pthread tesseract libxml2 libmupdf[ocr] gtest mongoose libmagic libraw gumbo ffmpeg[core,avcodec,avformat,swscale,swresample,webp,opus,mp3lame,vpx,zlib]
يبني
git clone --recursive https://github.com/simon987/sist2/
(cd sist2-vue ; npm install ; npm run build)
(cd sist2-admin/frontend ; npm install ; npm run build)
cmake -DSIST_DEBUG=off -DCMAKE_TOOLCHAIN_FILE= < VCPKG_ROOT > /scripts/buildsystems/vcpkg.cmake .
make