此存储库包含 Tesseract.js 可以使用的各种.traineddata
集。这包括 Tesseract.js 默认使用的文件以及替代版本。下面解释了这些文件的内容以及如何将它们与 Tesseract.js 一起使用。
每组文件的说明如下。还列出了源,尽管此处使用的版本可能不反映链接的存储库中文件的最新版本。
4.0.0_best_int
- “Tessdata Best”的整合版4.0.0
- “泰斯数据”4.0.0-fast
- “Tessdata 快速”4.0.0_best
- “Tessdata 最佳”3.0.2
- 来自 Tesseract v3 的历史 Tessdata 文件每种语言的4.0.0
和4.0.0_best_int
文件都发布在特定于语言的 NPM 包中。每种语言都有自己的包,因为组合成一个包会导致巨大的下载。这些包名为@tesseract.js-data/{lang}
。例如,英文包名为@tesseract.js-data/eng
。
有关如何手动设置langPath
的说明,请参阅 Tesseract.js 文档。有关此存储库中文件的位置的详细信息如下。
可以使用任何自动镜像 NPM 的 CDN 来访问这些文件。流行的例子如下。
默认情况下,Tesseract.js 使用 JSDelivr CDN。 JSDelivr 上默认英文数据的链接如下。 https://cdn.jsdelivr.net/npm/@tesseract.js-data/[email protected]/4.0.0_best_int/eng.traineddata.gz
Unpkg 是另一个镜像 NPM 的 CDN。在大多数地区,unpkg 的可靠性似乎略低于 JSDelivr(尽管仍然可用)。然而,用户报告 unpkg 在 JSDelivr 被屏蔽的中国部分地区是可以访问的,因此请使用 unpkg。有关此问题的讨论以及从 JSDelivr 切换到unkpg
的示例代码可以在此处找到。
unkpkg 上默认英文数据的链接如下。 https://unpkg.com/@tesseract.js-data/eng/4.0.0_best_int/eng.traineddata.gz
用户可以自由使用这些文件的本地副本,而不必依赖远程 CDN。对于 Node.js,您可以简单地添加相关的 NPM 包作为依赖项,或者下载文件并将其包含为项目资源。对于浏览器版本,只需下载相关文件并将其托管在您的网站上即可。
tessdata.projectnaptha.com
网站已折旧,并且不再更新。不要将新代码指向此站点。
在旧版本的 Tesseract.js 中,默认的langPath
位置是托管此存储库的简单 GitHub 页面站点。然而,除了用户报告 GitHub 页面不可靠之外,该存储库现在也超过了 GitHub 页面大小限制。因此,该网站不再更新。该网站保持原样,以避免破坏旧代码,但鼓励开发人员进行切换。