このパッケージには、 OCRエンジン- libtesseract
とコマンドラインプログラムtesseract
が含まれています。
Tesseract 4は、ライン認識に焦点を当てた新しいニューラルネット(LSTM)ベースのOCRエンジンを追加しますが、キャラクターパターンを認識することで機能するTesseract 3のレガシーテッセラクトOCRエンジンもサポートしています。 Tesseract 3との互換性は、レガシーOCRエンジンモード(-OEM 0)を使用して有効になります。また、レガシーエンジン、たとえばTessDataリポジトリのエンジンをサポートするTrainedDataファイルも必要です。
Stefan Weilは現在のリード開発者です。レイ・スミスは2018年までリード開発者でした。メンテナーはZdenko Podobnyです。貢献者のリストについては、著者とGithubの貢献者のログをご覧ください。
TesseractにはUnicode(UTF-8)のサポートがあり、「箱から出して」 100を超える言語を認識できます。
Tesseractは、PNG、JPEG、TIFFなどのさまざまな画像形式をサポートしています。
TesserActは、Plain Text、HOCR(HTML)、PDF、Invisible-TextのみのPDF、TSV、ALTO、Pageなど、さまざまな出力形式をサポートしています。
多くの場合、より良いOCRの結果を得るには、テッセラクトを与えている画像の品質を改善する必要があることに注意する必要があります。
このプロジェクトにはGUIアプリケーションは含まれていません。必要な場合は、サードパーティのドキュメントをご覧ください。
Tesseractは、他の言語を認識するように訓練できます。詳細については、Tesseractトレーニングを参照してください。
TesseractはもともとHewlett-Packard Laboratories Bristol UKと1985年から1994年の間にColorey ColoradoのHewlett-Packard Coで開発されました。 HPによって供給されました。 2006年から2018年11月までGoogleによって開発されました。
メジャーバージョン5は現在の安定したバージョンであり、2021年11月30日にリリース5.0.0で始まります。新しいマイナーバージョンとBugfixバージョンはGitHubから入手できます。
最新のソースコードは、GitHubのメインブランチから入手できます。 Open Issueは、問題のトラッカーと計画文書に記載されています。
リリースの詳細については、リリースノートと変更ログを参照してください。
事前に構築されたバイナリパッケージを介してTesseractをインストールするか、ソースから作成できます。
ソースからTesseractを構築する前に、システムにサポートされているコンパイラの1つであるコンパイラがあることを確認してください。
基本的なコマンドラインの使用法:
tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]
さまざまなコマンドラインオプションの詳細については、 tesseract --help
またはman tesseract
を使用してください。
例はドキュメントに記載されています。
開発者は、 libtesseract
CまたはC ++ APIを使用して、独自のアプリケーションを構築できます。他のプログラミング言語のためにlibtesseract
にバインディングが必要な場合は、Addonsドキュメントのラッパーセクションを参照してください。
Doxygenによってソースコードから生成されたTesseractのドキュメントは、tesseract-ocr.github.ioで見つけることができます。
問題を提出する前に、このリポジトリのガイドラインを確認してください。
サポートについては、最初にドキュメント、特にFAQを読んで、問題に対処されているかどうかを確認してください。そうでない場合は、Tesseractユーザーフォーラム、Tesseract開発者フォーラム、過去の問題を検索します。必要なものがまだ見つからない場合は、メーリングリストでサポートを求めてください。
メーリングリスト:
質問をするためではなく、バグについてのみ問題を報告してください。
The code in this repository is licensed under the Apache License, Version 2.0 (the "License");
you may not use this file except in compliance with the License.
You may obtain a copy of the License at
http://www.apache.org/licenses/LICENSE-2.0
Unless required by applicable law or agreed to in writing, software
distributed under the License is distributed on an "AS IS" BASIS,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
See the License for the specific language governing permissions and
limitations under the License.
注:このソフトウェアは、異なるオープンソースライセンスの下でライセンスされる可能性のある他のパッケージに依存します。
Tesseractは、BSD 2-Clouseライセンスを本質的に使用するLeptonica Libraryを使用しています。
Tesseractは、Leptonica Libraryを使用して入力画像を開きます(例:PDFのようなドキュメントではありません)。 Zlib、PNG、TIFF(マルチページTIFF用)のサポートを組み込んだLeptonicaを使用することをお勧めします。
readme.mdの最新のオンラインバージョンについては、以下を参照してください。
https://github.com/tesseract-ocr/tesseract/blob/main/readme.md