示範:sist2.simon987.net
社區網址: Discord
sist2(簡單的增量搜尋工具)
警告:sist2 正處於早期開發階段
* 查看格式支持
** 查看存檔文件
*** 參見 OCR
**** 請參閱命名實體識別
version : " 3 "
services :
elasticsearch :
image : elasticsearch:7.17.9
restart : unless-stopped
volumes :
# This directory must have 1000:1000 permissions (or update PUID & PGID below)
- /data/sist2-es-data/:/usr/share/elasticsearch/data
environment :
- " discovery.type=single-node "
- " ES_JAVA_OPTS=-Xms2g -Xmx2g "
- " PUID=1000 "
- " PGID=1000 "
sist2-admin :
image : simon987/sist2:3.4.2-x64-linux
restart : unless-stopped
volumes :
- /data/sist2-admin-data/:/sist2-admin/
- /:/host
ports :
- 4090:4090
# NOTE: Don't expose this port publicly!
- 8080:8080
working_dir : /root/sist2-admin/
entrypoint : python3
command :
- /root/sist2-admin/sist2_admin/app.py
導航至 http://localhost:8080/ 以設定 sist2-admin。
選擇搜尋後端(查看比較):
docker run -d -p 9200:9200 -e " discovery.type=single-node " elasticsearch:7.17.9
下載最新的 sist2 版本。選擇與您的 CPU 架構相對應的文件,並使用chmod +x
將二進位檔案標記為可執行檔。
命令列使用請參閱使用指南。
用法範例:
sist2 scan ~/Documents --output ./documents.sist2
sist2 index --es-url http://localhost:9200 ./documents.sist2
sist2 sqlite-index --search-index ./search.sist2 ./documents.sist2
sist2 web ./documents.sist2
sist2 web --search-index ./search.sist2 ./documents.sist2
文件類型 | 圖書館 | 內容 | 縮圖 | 元數據 |
---|---|---|---|---|
pdf,xps,fb2,epub | 穆PDF | 文字+OCR | 是的 | 作者、標題 |
CBZ,CBR | 庫掃描 | - | 是的 | - |
audio/* | ffmpeg | - | 是的 | ID3標籤 |
video/* | ffmpeg | - | 是的 | 標題、評論、藝術家 |
image/* | ffmpeg | 光學字元辨識 | 是的 | 常見的EXIF標籤、GPS標籤 |
原始、rw2、dng、cr2、crw、dcr、k25、kdc、mrw、pef、xf3、arw、sr2、srf、erf | 原始庫 | 不 | 是的 | 常見的EXIF標籤、GPS標籤 |
ttf、ttc、cff、woff、fnt、otf | 自由打字2 | - | 是的, bmp | 名稱及款式 |
text/plain | 庫掃描 | 是的 | 不 | - |
html、xml | 庫掃描 | 是的 | 不 | - |
tar、zip、rar、7z、ar ... | 圖書館檔案 | 是的* | - | 不 |
docx、xlsx、pptx | 庫掃描 | 是的 | 如果嵌入 | 創作者、修改者、標題 |
文件(MS Word 97-2003) | 反詞 | 是的 | 不 | 作者、標題 |
手機、azw、azw3 | libmobi | 是的 | 是的 | 作者、標題 |
wpd(WordPerfect) | 庫wpd | 是的 | 不 | 計劃 |
json、jsonl、ndjson | 庫掃描 | 是的 | - | - |
*請參閱存檔文件
sist2將掃描儲存在存檔檔案(zip、tar、7z...)中的文件,就像它們直接位於檔案系統中一樣。也支援遞歸(檔案內的檔案)掃描。
限制:
.gif
、 .mp4
帶碎片元資料等)的支援是有限的(請參閱--mem-buffer
選項)您可以使用--ocr-lang
選項結合--ocr-images
和/或--ocr-ebooks
啟用對電子書(pdf、xps、fb2、epub)或圖像檔案類型的 OCR 支援。使用套件管理器 ( apt install tesseract-ocr-eng
) 或直接從 Github 下載語言資料檔。
simon987/sist2
映像預先安裝了常用語言(hin、jpn、eng、fra、rus、spa、chi_sim、deu、pol)。
您可以使用+
分隔符號指定多種語言。語言名稱必須與系統上安裝的*.traineddata
檔案相同(使用chi_sim
而不是chi-sim
)。
範例:
sist2 scan --ocr-ebooks --ocr-lang jpn ~ /Books/Manga/
sist2 scan --ocr-images --ocr-lang eng ~ /Images/Screenshots/
sist2 scan --ocr-ebooks --ocr-images --ocr-lang eng+chi_sim ~ /Chinese-Bilingual/
sist2 v3.0.7+ 支援 SQLite 搜尋後端。 SQLite 搜尋後端的功能較少,對於中等大小的索引來說,查詢效能通常相當,但它使用的記憶體少得多,並且更容易設定。
SQLite | 彈性搜尋 | |
---|---|---|
需要單獨安裝搜尋引擎 | ✓ | |
記憶體佔用 | 〜20MB | >500MB |
查詢語法 | fts5 | 查詢字串 |
模糊搜尋 | ✓ | |
媒體類型樹即時更新 | ✓ | |
手動標記 | ✓ | ✓ |
使用者腳本 | ✓ | ✓ |
搜尋結果的媒體類型細分 | ✓ | |
嵌入搜尋 | ✓ O(n) | ✓ O(logn) |
sist2 v3.0.4+ 支援命名實體識別 (NER)。只需將受支援的儲存庫 URL 新增至配置>機器學習選項>模型儲存庫即可啟用它。
文字處理在您的瀏覽器中完成,不會將資料傳送到任何第三方服務。有關更多詳細信息,請參閱 simon987/sist2-ner-models。
網址 | 維護者 | 目的 |
---|---|---|
simon987/sist2-ner-模型 | 西蒙987 | 一般的 |
如果你不想使用預編譯的二進位文件,你可以自己編譯sist2
git clone --recursive https://github.com/simon987/sist2/
cd sist2
docker build . -t my-sist2-image
# Copy sist2 executable from docker image
docker run --rm --entrypoint cat my-sist2-image /root/sist2 > sist2-x64-linux
安裝編譯時依賴項
apt install gcc g++ python3 yasm ragel automake autotools-dev wget libtool libssl-dev curl zip unzip tar xorg-dev libglu1-mesa-dev libxcursor-dev libxml2-dev libxinerama-dev gettext nasm git nodejs
使用我的 fork 安裝 vcpkg:https://github.com/simon987/vcpkg
安裝vcpkg依賴項
vcpkg install openblas curl[core,openssl] sqlite3[core,fts5,json1] cpp-jwt pcre cjson brotli libarchive[core,bzip2,libxml2,lz4,lzma,lzo] pthread tesseract libxml2 libmupdf[ocr] gtest mongoose libmagic libraw gumbo ffmpeg[core,avcodec,avformat,swscale,swresample,webp,opus,mp3lame,vpx,zlib]
建造
git clone --recursive https://github.com/simon987/sist2/
(cd sist2-vue ; npm install ; npm run build)
(cd sist2-admin/frontend ; npm install ; npm run build)
cmake -DSIST_DEBUG=off -DCMAKE_TOOLCHAIN_FILE= < VCPKG_ROOT > /scripts/buildsystems/vcpkg.cmake .
make