tesseract ocr for phpダウンロード - tesseract ocr for phpソースコードのダウンロード

tesseract ocr for php

その他のカテゴリー

1.0.0

ダウンロード

PHP 用 Tesseract OCR

PHP 内で Tesseract OCR を操作するためのラッパー。

インストール

作曲家経由:

 $ composer require thiagoalessio/tesseract_ocr

‼このライブラリは Tesseract OCR バージョン3.02以降に依存します。

Windows ユーザー向けの注意事項

Tesseract OCR をシステムにインストールする方法はたくさんありますが、すぐに起動して実行したいだけの場合は、Chocolatey で Capture2Text パッケージをインストールすることをお勧めします。

 choco install capture2text --version 3.9

Capture2Text の最近のバージョンは、 tesseractバイナリの配布を停止しました。

macOS ユーザー向けの注意事項

MacPorts を使用すると、次のように個別の言語のサポートをインストールできます。

 $ sudo port install tesseract-<langcode>

しかし、Homebrew ではそれは不可能です。デフォルトでは英語のみのサポートが提供されるため、他の言語で使用する場合は、すべてをインストールするのが最も簡単な解決策です。

 $ brew install tesseract tesseract-lang

使用法

基本的な使い方

素早い茶色のキツネが怠惰な犬を飛び越えます。

 use thiagoalessio  TesseractOCR  TesseractOCR ;
echo ( new TesseractOCR ( ' text.png ' ))
    -> run ();

 The quick brown fox
jumps over
the lazy dog.

その他の言語

ビューロー通り

 use thiagoalessio  TesseractOCR  TesseractOCR ;
echo ( new TesseractOCR ( ' german.png ' ))
    -> lang ( ' deu ' )
    -> run ();

 Bülowstraße

複数の言語

すしとポロを食べる

 use thiagoalessio  TesseractOCR  TesseractOCR ;
echo ( new TesseractOCR ( ' mixed-languages.png ' ))
    -> lang ( ' eng ' , ' jpn ' , ' spa ' )
    -> run ();

 I eat すし y Pollo

認識を誘導する

8055

 use thiagoalessio  TesseractOCR  TesseractOCR ;
echo ( new TesseractOCR ( ' 8055.png ' ))
    -> allowlist ( range ( ' A ' , ' Z ' ))
    -> run ();

 BOSS

CAPTCHA の破壊

はい、CAPTCHA を破るという崇高な目的でこのライブラリを使用したいと考えている人もいると思います。そのため、次のコメントを見てください。

#91 (コメント)

API

走る

tesseract プロセスが停止した場合に備えて、 tesseractコマンドを実行します。オプションでtimeoutとして整数を受け取ります。

 $ ocr = new TesseractOCR ();
$ ocr -> run ();

 $ ocr = new TesseractOCR ();
$ timeout = 500 ;
$ ocr -> run ( $ timeout );

画像

tesseractで認識される画像のパスを定義します。

 $ ocr = new TesseractOCR ();
$ ocr -> image ( ' /path/to/image.png ' );
$ ocr -> run ();

画像データ

tesseractで認識される画像とそのサイズを文字列から設定します。これは、メモリにすでにロードされているファイルを扱う場合に便利です。画像データと画像オブジェクトのサイズを簡単に取得できます。

 //Using Imagick
$ data = $ img -> getImageBlob ();
$ size = $ img -> getImageLength ();
//Using GD
ob_start ();
// Note that you can use any format supported by tesseract
imagepng ( $ img , null , 0 );
$ size = ob_get_length ();
$ data = ob_get_clean ();

$ ocr = new TesseractOCR ();
$ ocr -> imageData ( $ data , $ size );
$ ocr -> run ();

実行可能

何らかの理由で$PATHに存在しない場合は、 tesseract実行可能ファイルのカスタムの場所を定義します。

 echo ( new TesseractOCR ( ' img.png ' ))
    -> executable ( ' /path/to/tesseract ' )
    -> run ();

バージョン

tesseractの現在のバージョンを返します。

 echo ( new TesseractOCR ())-> version ();

利用可能な言語

利用可能な言語/スクリプトのリストを返します。

 foreach (( new TesseractOCR ())-> availableLanguages () as $ lang ) echo $ lang ;

詳細: https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc#lungs-and-scripts

tessdataDir

tessdata ディレクトリのカスタムの場所を指定します。

 echo ( new TesseractOCR ( ' img.png ' ))
    -> tessdataDir ( ' /path ' )
    -> run ();

ユーザーの言葉

ユーザーワードファイルの場所を指定します。

これは、 tesseractによって通常の辞書の単語としてみなされる単語のリストを含むプレーンテキストファイルです。

専門用語や専門用語などが含まれるコンテンツを扱う場合に便利です。

 $ cat /path/to/user-words.txt
foo
bar

 echo ( new TesseractOCR ( ' img.png ' ))
    -> userWords ( ' /path/to/user-words.txt ' )
    -> run ();

ユーザーパターン

ユーザーパターンファイルの場所を指定します。

扱っているコンテンツに既知のパターンがある場合、このオプションは tesseract の認識精度に大きく役立ちます。

 $ cat /path/to/user-patterns.txt'
1-ddd-GOOG-441
www.n\*.com

 echo ( new TesseractOCR ( ' img.png ' ))
    -> userPatterns ( ' /path/to/user-patterns.txt ' )
    -> run ();

ラング

認識中に使用する 1 つ以上の言語を定義します。利用可能な言語の完全なリストは、https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc#messages でご覧いただけます。

@daijiale からのヒント:中国語を正しく認識するには、 ->lang('chi_sim', 'chi_tra')の組み合わせを使用します。

 echo ( new TesseractOCR ( ' img.png ' ))
     -> lang ( ' lang1 ' , ' lang2 ' , ' lang3 ' )
     -> run ();

psm

ページ分割方法を指定します。これは、指定された画像を解釈する方法をtesseract指示します。

詳細: https://github.com/tesseract-ocr/tesseract/wiki/ ImprovementQuality#page-segmentation-method

 echo ( new TesseractOCR ( ' img.png ' ))
    -> psm ( 6 )
    -> run ();

OEM

OCR エンジンモードを指定します。 ( tesseract --help-oem参照)

 echo ( new TesseractOCR ( ' img.png ' ))
    -> oem ( 2 )
    -> run ();

dpi

画像のDPIを指定します。画像のメタデータにこの情報が含まれていない場合に便利です。

 echo ( new TesseractOCR ( ' img.png ' ))
    -> dpi ( 300 )
    -> run ();

ホワイトリスト

これは->config('tessedit_char_whitelist', 'abcdef....')のショートカットです。

 echo ( new TesseractOCR ( ' img.png ' ))
    -> allowlist ( range ( ' a ' , ' z ' ), range ( 0 , 9 ), ' -_@ ' )
    -> run ();

構成ファイル

使用する設定ファイルを指定します。独自の構成ファイルへのパス、または事前定義された構成ファイルのいずれかの名前にすることができます: https://github.com/tesseract-ocr/tesseract/tree/master/tessdata/configs

 echo ( new TesseractOCR ( ' img.png ' ))
    -> configFile ( ' hocr ' )
    -> run ();

setOutputFile

使用する出力ファイルを指定します。注意: 出力ファイルを設定した場合、オプションwithoutTempFilesは無視されます。 withoutTempFiles = trueの場合でも、一時ファイルは書き込まれます (および削除されます)。

configFileと組み合わせて、 hocr 、 tsvまたはpdfファイルを取得できます。

 echo ( new TesseractOCR ( ' img.png ' ))
    -> configFile ( ' pdf ' )
    -> setOutputFile ( ' /PATH_TO_MY_OUTPUTFILE/searchable.pdf ' )
    -> run ();

数字

->configFile('digits')のショートカット。

 echo ( new TesseractOCR ( ' img.png ' ))
    -> digits ()
    -> run ();

ホクル

->configFile('hocr')のショートカット。

 echo ( new TesseractOCR ( ' img.png ' ))
    -> hocr ()
    -> run ();

pdf

->configFile('pdf')のショートカット。

 echo ( new TesseractOCR ( ' img.png ' ))
    -> pdf ()
    -> run ();

静かな

->configFile('quiet')のショートカット。

 echo ( new TesseractOCR ( ' img.png ' ))
    -> quiet ()
    -> run ();

TSV

->configFile('tsv')のショートカット。

 echo ( new TesseractOCR ( ' img.png ' ))
    -> tsv ()
    -> run ();

TXT

->configFile('txt')のショートカット。

 echo ( new TesseractOCR ( ' img.png ' ))
    -> txt ()
    -> run ();

温度ディレクトリ

tesseract によって生成された一時ファイルを保存するカスタムディレクトリを定義します。ディレクトリが実際に存在し、 php実行しているユーザーがそこに書き込みを許可されていることを確認してください。

 echo ( new TesseractOCR ( ' img.png ' ))
    -> tempDir ( ' ./my/custom/temp/dir ' )
    -> run ();

TempFilesなし

tesseract一時ファイルに書き込まずに認識されたテキストを出力するように指定します。データは代わりにtesseractの標準出力から収集されます。

 echo ( new TesseractOCR ( ' img.png ' ))
    -> withoutTempFiles ()
    -> run ();

その他のオプション

Tesseract が提供する構成オプションはすべて次のように使用できます。

 echo ( new TesseractOCR ( ' img.png ' ))
    -> config ( ' config_var ' , ' value ' )
    -> config ( ' other_config_var ' , ' other value ' )
    -> run ();

または次のようにします。

 echo ( new TesseractOCR ( ' img.png ' ))
    -> configVar ( ' value ' )
    -> otherConfigVar ( ' other value ' )
    -> run ();

詳細: https://github.com/tesseract-ocr/tesseract/wiki/ControlParams

スレッド制限

場合によっては、tesseract が使用できるスレッドの数を制限すると便利な場合があります (たとえば、この場合)。 run関数のパラメータとしてスレッドの最大数を設定します。

 echo ( new TesseractOCR ( ' img.png ' ))
    -> threadLimit ( 1 )
    -> run ();

貢献方法

次の方法でこのプロジェクトに貢献できます。

バグを見つけた場合、または新しい機能を提案したい場合は、問題を開きます。
バグ、欠落または間違ったドキュメントを修正するコード、または新機能を実装するコードを含むプルリクエストを送信する。

当社の行動規範と貢献に関する指示を必ずご覧ください。

ライセンス

tesseract-ocr-for-php は MIT ライセンスに基づいてリリースされています。

_{で作られましたベルリンで}

拡大する

追加情報

バージョン 1.0.0
タイプその他のカテゴリー
更新時間 2024-12-21
サイズ 13.65KB
から Github