สาธิต : sist2.simon987.net
URL ชุมชน: Discord
sist2 (เครื่องมือค้นหาแบบเพิ่มหน่วยอย่างง่าย)
คำเตือน: sist2 อยู่ระหว่างการพัฒนา
* ดูการสนับสนุนรูปแบบ
** ดูไฟล์เก็บถาวร
*** ดูโอซีอาร์
**** ดูการรับรู้ชื่อนิติบุคคล
version : " 3 "
services :
elasticsearch :
image : elasticsearch:7.17.9
restart : unless-stopped
volumes :
# This directory must have 1000:1000 permissions (or update PUID & PGID below)
- /data/sist2-es-data/:/usr/share/elasticsearch/data
environment :
- " discovery.type=single-node "
- " ES_JAVA_OPTS=-Xms2g -Xmx2g "
- " PUID=1000 "
- " PGID=1000 "
sist2-admin :
image : simon987/sist2:3.4.2-x64-linux
restart : unless-stopped
volumes :
- /data/sist2-admin-data/:/sist2-admin/
- /:/host
ports :
- 4090:4090
# NOTE: Don't expose this port publicly!
- 8080:8080
working_dir : /root/sist2-admin/
entrypoint : python3
command :
- /root/sist2-admin/sist2_admin/app.py
ไปที่ http://localhost:8080/ เพื่อกำหนดค่า sist2-admin
เลือกแบ็กเอนด์การค้นหา (ดูการเปรียบเทียบ):
docker run -d -p 9200:9200 -e " discovery.type=single-node " elasticsearch:7.17.9
ดาวน์โหลด sist2 รุ่นล่าสุด เลือกไฟล์ที่สอดคล้องกับสถาปัตยกรรม CPU ของคุณและทำเครื่องหมายไบนารีว่าสามารถเรียกใช้งานได้ด้วย chmod +x
ดูคู่มือการใช้งานสำหรับการใช้บรรทัดคำสั่ง
ตัวอย่างการใช้งาน:
sist2 scan ~/Documents --output ./documents.sist2
sist2 index --es-url http://localhost:9200 ./documents.sist2
sist2 sqlite-index --search-index ./search.sist2 ./documents.sist2
sist2 web ./documents.sist2
sist2 web --search-index ./search.sist2 ./documents.sist2
ประเภทไฟล์ | ห้องสมุด | เนื้อหา | ภาพขนาดย่อ | ข้อมูลเมตา |
---|---|---|---|---|
pdf,xps,fb2,epub | MuPDF | ข้อความ+ocr | ใช่ | ผู้แต่งชื่อเรื่อง |
ซีบีซี ซีบีอาร์ | ลิบสแกน | - | ใช่ | - |
audio/* | ffmpeg | - | ใช่ | แท็ก ID3 |
video/* | ffmpeg | - | ใช่ | ชื่อ ความคิดเห็น ศิลปิน |
image/* | ffmpeg | เกิดขึ้น | ใช่ | แท็ก EXIF ทั่วไป แท็ก GPS |
ดิบ, rw2, dng, cr2, crw, dcr, k25, kdc, mrw, pef, xf3, arw, sr2, srf, erf | LibRaw | เลขที่ | ใช่ | แท็ก EXIF ทั่วไป แท็ก GPS |
ttf,ttc,cff,woff,fnt,otf | ฟรีไทป์2 | - | ใช่ bmp | ชื่อและสไตล์ |
text/plain | ลิบสแกน | ใช่ | เลขที่ | - |
html,xml | ลิบสแกน | ใช่ | เลขที่ | - |
tar, zip, rar, 7z, ar ... | ไลบาร์ชิฟ | ใช่* | - | เลขที่ |
docx, xlsx, pptx | ลิบสแกน | ใช่ | ถ้าฝังตัว | ผู้สร้าง, modified_by, ชื่อเรื่อง |
เอกสาร (MS Word 97-2003) | คำต่อต้าน | ใช่ | เลขที่ | ผู้แต่งชื่อเรื่อง |
โมบี, azw, azw3 | ลิบโมบี | ใช่ | ใช่ | ผู้แต่งชื่อเรื่อง |
wpd (เวิร์ดเพอร์เฟค) | libwpd | ใช่ | เลขที่ | วางแผนไว้ |
json, jsonl, ndjson | ลิบสแกน | ใช่ | - | - |
* ดูไฟล์เก็บถาวร
sist2 จะสแกนไฟล์ที่จัดเก็บไว้ในไฟล์เก็บถาวร (zip, tar, 7z...) ราวกับว่าไฟล์เหล่านั้นอยู่ในระบบไฟล์โดยตรง รองรับการสแกนแบบเรียกซ้ำ (ไฟล์เก็บถาวรภายในไฟล์เก็บถาวร)
ข้อจำกัด :
.gif
, .mp4
พร้อมข้อมูลเมตาที่แยกส่วน ฯลฯ) มีจำกัด (ดูตัวเลือก --mem-buffer
) คุณสามารถเปิดใช้งานการรองรับ OCR สำหรับ ebook (pdf,xps,fb2,epub) หรือประเภทไฟล์รูปภาพด้วยตัวเลือก --ocr-lang
ร่วมกับ --ocr-images
และ/หรือ --ocr-ebooks
ดาวน์โหลดไฟล์ข้อมูลภาษาด้วยตัวจัดการแพ็คเกจของคุณ ( apt install tesseract-ocr-eng
) หรือโดยตรงจาก Github
อิมเมจ simon987/sist2
มาพร้อมกับภาษาทั่วไป (hin, jpn, eng, fra, rus, spa, chi_sim, deu, pol) ที่ติดตั้งไว้ล่วงหน้า
คุณสามารถใช้ตัวคั่น +
เพื่อระบุหลายภาษา ชื่อภาษาจะต้องเหมือนกันกับไฟล์ *.traineddata
ที่ติดตั้งบนระบบของคุณ (ใช้ chi_sim
แทน chi-sim
)
ตัวอย่าง:
sist2 scan --ocr-ebooks --ocr-lang jpn ~ /Books/Manga/
sist2 scan --ocr-images --ocr-lang eng ~ /Images/Screenshots/
sist2 scan --ocr-ebooks --ocr-images --ocr-lang eng+chi_sim ~ /Chinese-Bilingual/
sist2 v3.0.7+ รองรับแบ็กเอนด์การค้นหา SQLite แบ็กเอนด์การค้นหา SQLite มีคุณสมบัติน้อยกว่าและโดยทั่วไปประสิทธิภาพการค้นหาที่เทียบเคียงได้สำหรับดัชนีขนาดกลาง แต่ใช้หน่วยความจำน้อยกว่ามากและตั้งค่าได้ง่ายกว่า
SQLite | การค้นหาแบบยืดหยุ่น | |
---|---|---|
ต้องมีการติดตั้งเครื่องมือค้นหาแยกต่างหาก | ||
รอยเท้าหน่วยความจำ | ~20เมกะไบต์ | >500MB |
ไวยากรณ์แบบสอบถาม | ฟุต5 | query_string |
การค้นหาที่คลุมเครือ | ||
การอัปเดตแผนผังแบบเรียลไทม์ของประเภทสื่อ | ||
การติดแท็กด้วยตนเอง | ||
สคริปต์ผู้ใช้ | ||
รายละเอียดประเภทสื่อสำหรับผลการค้นหา | ||
ค้นหาการฝัง | ✓ โอ(น) | ✓ O(เข้าสู่ระบบ) |
sist2 v3.0.4+ รองรับการจดจำเอนทิตีที่มีชื่อ (NER) เพียงเพิ่ม URL ของที่เก็บที่รองรับใน การกำหนดค่า > ตัวเลือกการเรียนรู้ของเครื่อง > ที่เก็บโมเดล เพื่อเปิดใช้งาน
การประมวลผลข้อความเสร็จสิ้นในเบราว์เซอร์ของคุณ โดยจะไม่มีการส่งข้อมูลไปยังบริการของบุคคลที่สาม ดู simon987/sist2-ner-models สำหรับรายละเอียดเพิ่มเติม
URL | ผู้ดูแล | วัตถุประสงค์ |
---|---|---|
simon987/sist2-ner-รุ่น | ไซมอน987 | ทั่วไป |
คุณสามารถคอมไพล์ sist2 ได้ด้วยตัวเอง หากคุณไม่ต้องการใช้ไบนารีที่คอมไพล์ไว้ล่วงหน้า
git clone --recursive https://github.com/simon987/sist2/
cd sist2
docker build . -t my-sist2-image
# Copy sist2 executable from docker image
docker run --rm --entrypoint cat my-sist2-image /root/sist2 > sist2-x64-linux
ติดตั้งการพึ่งพาเวลาคอมไพล์
apt install gcc g++ python3 yasm ragel automake autotools-dev wget libtool libssl-dev curl zip unzip tar xorg-dev libglu1-mesa-dev libxcursor-dev libxml2-dev libxinerama-dev gettext nasm git nodejs
ติดตั้ง vcpkg โดยใช้ส้อมของฉัน: https://github.com/simon987/vcpkg
ติดตั้งการพึ่งพา vcpkg
vcpkg install openblas curl[core,openssl] sqlite3[core,fts5,json1] cpp-jwt pcre cjson brotli libarchive[core,bzip2,libxml2,lz4,lzma,lzo] pthread tesseract libxml2 libmupdf[ocr] gtest mongoose libmagic libraw gumbo ffmpeg[core,avcodec,avformat,swscale,swresample,webp,opus,mp3lame,vpx,zlib]
สร้าง
git clone --recursive https://github.com/simon987/sist2/
(cd sist2-vue ; npm install ; npm run build)
(cd sist2-admin/frontend ; npm install ; npm run build)
cmake -DSIST_DEBUG=off -DCMAKE_TOOLCHAIN_FILE= < VCPKG_ROOT > /scripts/buildsystems/vcpkg.cmake .
make