このリポジトリには、Tesseract.js で使用できる.traineddata
のさまざまなセットが含まれています。これには、デフォルトで Tesseract.js によって使用されるファイルと代替バージョンが含まれます。ファイルの内容と Tesseract.js での使用方法については、以下で説明します。
ファイルの各セットの説明は以下のとおりです。ソースもリストされていますが、ここで使用されているバージョンは、リンクされたリポジトリ内のファイルの最新バージョンを反映していない可能性があります。
4.0.0_best_int
- 「Tessdata Best」の統合バージョン4.0.0
- 「テスデータ」4.0.0-fast
- 「Tessdata 高速」4.0.0_best
- "Tessdata ベスト"3.0.2
- Tesseract v3 からの過去の Tessdata ファイル各言語の4.0.0
および4.0.0_best_int
ファイルは、言語固有の NPM パッケージで公開されます。単一のパッケージに結合するとダウンロードが膨大になるため、各言語には独自のパッケージがあります。パッケージの名前は@tesseract.js-data/{lang}
です。たとえば、英語のパッケージの名前は@tesseract.js-data/eng
です。
langPath
手動で設定する方法については、Tesseract.js のドキュメントを参照してください。このリポジトリ内のファイルがどこにあるかに関する詳細は以下のとおりです。
これらのファイルには、NPM を自動的にミラーリングする任意の CDN を使用してアクセスできます。よくある例を以下に示します。
デフォルトでは、Tesseract.js は JSDelivr CDN を使用します。 JSDelivr のデフォルト英語データのリンクは以下です。 https://cdn.jsdelivr.net/npm/@tesseract.js-data/[email protected]/4.0.0_best_int/eng.traineddata.gz
Unpkg は、NPM をミラーリングするもう 1 つの CDN です。ほとんどの地域では、unpkg は JSDelivr よりもわずかに信頼性が低いようです (それでも使用可能ですが)。ただし、JSDelivr がブロックされている中国の一部の地域では unpkg にアクセスできるとユーザーが報告しているため、その理由から unpkg を使用してください。この問題に関するディスカッションと、 JSDelivr からunkpg
に切り替えるサンプル コードは、ここにあります。
unkpkg のデフォルト英語データのリンクは以下です。 https://unpkg.com/@tesseract.js-data/eng/4.0.0_best_int/eng.traineddata.gz
ユーザーは、リモート CDN に依存するのではなく、これらのファイルの独自のローカル コピーを自由に使用できます。 Node.js の場合は、関連する NPM パッケージを依存関係として追加するか、ファイルをダウンロードしてプロジェクト リソースとして含めることができます。ブラウザ版の場合は、関連ファイルをダウンロードして、Web サイト上でホストするだけです。
tessdata.projectnaptha.com
サイトは廃止され、更新されなくなりました。新しいコードをこのサイトに向けないでください。
Tesseract.js の古いバージョンでは、デフォルトのlangPath
の場所は、このリポジトリをホストする単純な GitHub ページ サイトでした。ただし、GitHub ページは信頼できないとユーザーが報告していることに加えて、このリポジトリは現在 GitHub ページのサイズ制限を超えています。したがって、そのサイトは更新されなくなりました。古いコードの破壊を避けるためにサイトは現状のまま残されていますが、開発者には切り替えることが推奨されています。