Demo : sist2.simon987.net
URL Komunitas: Perselisihan
SIST2 (Alat Pencarian tambahan sederhana)
Peringatan: Sist2 sedang dalam pengembangan awal
* Lihat Dukungan Format
** Lihat file arsip
*** Lihat OCR
**** Lihat Pengakuan Nama-Entitas
version : " 3 "
services :
elasticsearch :
image : elasticsearch:7.17.9
restart : unless-stopped
volumes :
# This directory must have 1000:1000 permissions (or update PUID & PGID below)
- /data/sist2-es-data/:/usr/share/elasticsearch/data
environment :
- " discovery.type=single-node "
- " ES_JAVA_OPTS=-Xms2g -Xmx2g "
- " PUID=1000 "
- " PGID=1000 "
sist2-admin :
image : simon987/sist2:3.4.2-x64-linux
restart : unless-stopped
volumes :
- /data/sist2-admin-data/:/sist2-admin/
- /:/host
ports :
- 4090:4090
# NOTE: Don't expose this port publicly!
- 8080:8080
working_dir : /root/sist2-admin/
entrypoint : python3
command :
- /root/sist2-admin/sist2_admin/app.py
Arahkan ke http: // localhost: 8080/untuk mengonfigurasi sist2-admin.
Pilih pencarian backend (lihat perbandingan):
docker run -d -p 9200:9200 -e " discovery.type=single-node " elasticsearch:7.17.9
Unduh rilis SIST2 terbaru. Pilih file yang sesuai dengan arsitektur CPU Anda dan tandai biner sebagai dapat dieksekusi dengan chmod +x
.
Lihat Panduan Penggunaan untuk Penggunaan Baris Perintah.
Contoh Penggunaan:
sist2 scan ~/Documents --output ./documents.sist2
sist2 index --es-url http://localhost:9200 ./documents.sist2
sist2 sqlite-index --search-index ./search.sist2 ./documents.sist2
sist2 web ./documents.sist2
sist2 web --search-index ./search.sist2 ./documents.sist2
Jenis file | Perpustakaan | Isi | Thumbnail | Metadata |
---|---|---|---|---|
PDF, XPS, FB2, EPUB | Mupdf | Teks+OCR | Ya | Penulis, Judul |
CBZ, CBR | libscan | - | Ya | - |
audio/* | ffmpeg | - | Ya | Tag ID3 |
video/* | ffmpeg | - | Ya | judul, komentar, artis |
image/* | ffmpeg | ocr | Ya | Tag Exif Umum, Tag GPS |
mentah, rw2, dng, cr2, crw, dcr, k25, kdc, mrw, pef, xf3, arw, sr2, srf, erf | Libraw | TIDAK | Ya | Tag Exif Umum, Tag GPS |
TTF, TTC, CFF, WOFF, FNT, OTF | Freetype2 | - | Ya, bmp | Nama & Gaya |
text/plain | libscan | Ya | TIDAK | - |
html, xml | libscan | Ya | TIDAK | - |
tar, zip, rar, 7z, ar ... | Libarchive | Ya* | - | TIDAK |
DOCX, XLSX, PPTX | libscan | Ya | Jika tertanam | Pencipta, Modified_by, judul |
DOC (MS Word 97-2003) | Antiword | Ya | TIDAK | Penulis, Judul |
mobi, azw, azw3 | libmobi | Ya | Ya | Penulis, Judul |
WPD (WordPerfect) | libwpd | Ya | TIDAK | berencana |
JSON, JSONL, NDJSON | libscan | Ya | - | - |
* Lihat file arsip
SIST2 akan memindai file yang disimpan ke dalam file arsip (ZIP, TAR, 7Z ...) seolah -olah mereka langsung dalam sistem file. Pemindaian rekursif (arsip di dalam arsip) juga didukung.
Keterbatasan :
.gif
, .mp4
w/ metadata terfragmentasi dll.) Dibatasi (lihat-opsi --mem-buffer
) Anda dapat mengaktifkan dukungan OCR untuk eBook (PDF, XPS, FB2, EPUB) atau jenis file gambar dengan opsi --ocr-lang
dalam kombinasi dengan --ocr-images
dan/atau --ocr-ebooks
. Unduh File Data Bahasa dengan Manajer Paket Anda ( apt install tesseract-ocr-eng
) atau langsung dari GitHub.
Gambar simon987/sist2
hadir dengan bahasa umum (Hin, JPN, ENG, FRA, RUS, SPA, CHI_SIM, DEU, POL) pra-instal.
Anda dapat menggunakan +
pemisah untuk menentukan beberapa bahasa. Nama bahasa harus identik dengan file *.traineddata
yang diinstal pada sistem Anda (gunakan chi_sim
daripada chi-sim
).
Contoh:
sist2 scan --ocr-ebooks --ocr-lang jpn ~ /Books/Manga/
sist2 scan --ocr-images --ocr-lang eng ~ /Images/Screenshots/
sist2 scan --ocr-ebooks --ocr-images --ocr-lang eng+chi_sim ~ /Chinese-Bilingual/
Sist2 v3.0.7+ mendukung backend pencarian sqlite. Backend pencarian SQLite memiliki lebih sedikit fitur dan kinerja kueri yang umumnya sebanding untuk indeks ukuran sedang, tetapi menggunakan memori yang jauh lebih sedikit dan lebih mudah diatur.
Sqlite | Elasticsearch | |
---|---|---|
Membutuhkan pemasangan mesin pencari terpisah | ✓ | |
Jejak memori | ~ 20MB | > 500MB |
Sintaks kueri | fts5 | query_string |
Pencarian fuzzy | ✓ | |
Jenis Media Pohon Pembaruan waktu nyata | ✓ | |
Penandaan manual | ✓ | ✓ |
Skrip pengguna | ✓ | ✓ |
Rincian Jenis Media untuk Hasil Pencarian | ✓ | |
Pencarian Embeddings | ✓ o (n) | ✓ O (LOGN) |
SIST2 v3.0.4+ mendukung pengakuan namanya-entitas (NER). Cukup tambahkan URL repositori yang didukung ke Konfigurasi > Opsi Pembelajaran Mesin > Repositori Model untuk mengaktifkannya.
Pemrosesan teks dilakukan di browser Anda, tidak ada data yang dikirim ke layanan pihak ketiga mana pun. Lihat Model SIMON987/SIST2-BERNA untuk detail lebih lanjut.
Url | Pemeliharaan | Tujuan |
---|---|---|
SIMON987/SIST2-BERNEL-MODELS | Simon987 | Umum |
Anda dapat mengkompilasi sist2 sendiri jika Anda tidak ingin menggunakan binari yang telah dikompilasi sebelumnya
git clone --recursive https://github.com/simon987/sist2/
cd sist2
docker build . -t my-sist2-image
# Copy sist2 executable from docker image
docker run --rm --entrypoint cat my-sist2-image /root/sist2 > sist2-x64-linux
Instal dependensi kompilasi waktu
apt install gcc g++ python3 yasm ragel automake autotools-dev wget libtool libssl-dev curl zip unzip tar xorg-dev libglu1-mesa-dev libxcursor-dev libxml2-dev libxinerama-dev gettext nasm git nodejs
Instal vcpkg menggunakan garpu saya: https://github.com/simon987/vcpkg
Instal VCPKG Dependencies
vcpkg install openblas curl[core,openssl] sqlite3[core,fts5,json1] cpp-jwt pcre cjson brotli libarchive[core,bzip2,libxml2,lz4,lzma,lzo] pthread tesseract libxml2 libmupdf[ocr] gtest mongoose libmagic libraw gumbo ffmpeg[core,avcodec,avformat,swscale,swresample,webp,opus,mp3lame,vpx,zlib]
Membangun
git clone --recursive https://github.com/simon987/sist2/
(cd sist2-vue ; npm install ; npm run build)
(cd sist2-admin/frontend ; npm install ; npm run build)
cmake -DSIST_DEBUG=off -DCMAKE_TOOLCHAIN_FILE= < VCPKG_ROOT > /scripts/buildsystems/vcpkg.cmake .
make