此儲存庫包含 Tesseract.js 可以使用的各種.traineddata
集。這包括 Tesseract.js 預設使用的檔案以及替代版本。下面解釋了這些檔案的內容以及如何將它們與 Tesseract.js 一起使用。
每組文件的說明如下。還列出了來源,儘管此處使用的版本可能不反映連結的儲存庫中文件的最新版本。
4.0.0_best_int
- “Tessdata Best”的整合版4.0.0
- “泰斯數據”4.0.0-fast
- “Tessdata 快速”4.0.0_best
- “Tessdata 最佳”3.0.2
- 來自 Tesseract v3 的歷史 Tessdata 文件每種語言的4.0.0
和4.0.0_best_int
檔案都發佈在特定於語言的 NPM 套件中。每種語言都有自己的包,因為組合成一個包會導致巨大的下載。這些套件名為@tesseract.js-data/{lang}
。例如,英文包名為@tesseract.js-data/eng
。
有關如何手動設定langPath
的說明,請參閱 Tesseract.js 文件。有關此存儲庫中文件的位置的詳細資訊如下。
可以使用任何自動鏡像 NPM 的 CDN 來存取這些檔案。流行的例子如下。
預設情況下,Tesseract.js 使用 JSDelivr CDN。 JSDelivr 上預設英文資料的連結如下。 https://cdn.jsdelivr.net/npm/@tesseract.js-data/[email protected]/4.0.0_best_int/eng.traineddata.gz
Unpkg 是另一個鏡像 NPM 的 CDN。在大多數地區,unpkg 的可靠性似乎略低於 JSDelivr(儘管仍然可用)。然而,使用者報告 unpkg 在 JSDelivr 被屏蔽的中國部分地區是可訪問的,因此請使用 unpkg。有關此問題的討論以及從 JSDelivr 切換到unkpg
的範例程式碼可以在此處找到。
unkpkg 上預設英文資料的連結如下。 https://unpkg.com/@tesseract.js-data/eng/4.0.0_best_int/eng.traineddata.gz
使用者可以自由使用這些檔案的本機副本,而不必依賴遠端 CDN。對於 Node.js,您可以簡單地新增相關的 NPM 套件作為依賴項,或下載檔案並將其包含為專案資源。對於瀏覽器版本,只需下載相關文件並將其託管在您的網站上即可。
tessdata.projectnaptha.com
網站已折舊,並且不再更新。不要將新程式碼指向此網站。
在舊版本的 Tesseract.js 中,預設的langPath
位置是託管此儲存庫的簡單 GitHub 頁面網站。然而,除了使用者報告 GitHub 頁面不可靠之外,該儲存庫現在也超過了 GitHub 頁面大小限制。因此,該網站不再更新。網站保持原樣,以避免破壞舊程式碼,但鼓勵開發人員進行切換。