tesseract ocr for php下載 - tesseract ocr for php原始碼下載

tesseract ocr for php

其他類別

1.0.0

下載

適用於 PHP 的 Tesseract OCR

在 PHP 中使用 Tesseract OCR 的包裝器。

安裝

透過作曲家：

 $ composer require thiagoalessio/tesseract_ocr

‼該程式庫依賴 Tesseract OCR 3.02或更高版本。

Windows 使用者註意事項

在您的系統上安裝 Tesseract OCR 的方法有很多，但如果您只是想要快速啟動和運行，我建議使用 Chocolatey 安裝 Capture2Text 套件。

 choco install capture2text --version 3.9

最新版本的 Capture2Text 停止提供tesseract進位。

macOS 使用者註意事項

使用 MacPorts，您可以安裝對各種語言的支持，如下所示：

 $ sudo port install tesseract-<langcode>

但這對 Homebrew 來說是不可能的。預設情況下它僅支援英語，因此如果您打算將其用於其他語言，最快的解決方案是將它們全部安裝：

 $ brew install tesseract tesseract-lang

用法

基本用法

敏捷的棕色狐狸跳過了那隻懶狗。

 use thiagoalessio  TesseractOCR  TesseractOCR ;
echo ( new TesseractOCR ( ' text.png ' ))
    -> run ();

 The quick brown fox
jumps over
the lazy dog.

其他語言

布洛大街

 use thiagoalessio  TesseractOCR  TesseractOCR ;
echo ( new TesseractOCR ( ' german.png ' ))
    -> lang ( ' deu ' )
    -> run ();

 Bülowstraße

多種語言

我吃すし y Pollo

 use thiagoalessio  TesseractOCR  TesseractOCR ;
echo ( new TesseractOCR ( ' mixed-languages.png ' ))
    -> lang ( ' eng ' , ' jpn ' , ' spa ' )
    -> run ();

 I eat すし y Pollo

誘導認可

8055

 use thiagoalessio  TesseractOCR  TesseractOCR ;
echo ( new TesseractOCR ( ' 8055.png ' ))
    -> allowlist ( range ( ' A ' , ' Z ' ))
    -> run ();

 BOSS

破解驗證碼

是的，我知道你們中的一些人可能想使用這個庫來達到破解驗證碼的崇高目的，所以請看看這個評論：

第91章（評論）

應用程式介面

跑步

執行tesseract指令，可選擇性地接收一個整數作為timeout ，以防您遇到 tesseract 行程停滯的情況。

 $ ocr = new TesseractOCR ();
$ ocr -> run ();

 $ ocr = new TesseractOCR ();
$ timeout = 500 ;
$ ocr -> run ( $ timeout );

影像

定義tesseract辨識的影像的路徑。

 $ ocr = new TesseractOCR ();
$ ocr -> image ( ' /path/to/image.png ' );
$ ocr -> run ();

影像資料

設定要由tesseract從字串中識別的圖像及其大小。這在處理已載入到記憶體中的檔案時非常有用。您可以輕鬆檢索影像資料和影像物件的大小：

 //Using Imagick
$ data = $ img -> getImageBlob ();
$ size = $ img -> getImageLength ();
//Using GD
ob_start ();
// Note that you can use any format supported by tesseract
imagepng ( $ img , null , 0 );
$ size = ob_get_length ();
$ data = ob_get_clean ();

$ ocr = new TesseractOCR ();
$ ocr -> imageData ( $ data , $ size );
$ ocr -> run ();

執行檔

定義tesseract可執行檔的自訂位置（如果由於任何原因它不存在於$PATH中）。

 echo ( new TesseractOCR ( ' img.png ' ))
    -> executable ( ' /path/to/tesseract ' )
    -> run ();

版本

傳回tesseract的目前版本。

 echo ( new TesseractOCR ())-> version ();

可用語言

傳回可用語言/腳本的清單。

 foreach (( new TesseractOCR ())-> availableLanguages () as $ lang ) echo $ lang ;

更多資訊： https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc#languages-and-scripts

tessdata目錄

指定 tessdata 目錄的自訂位置。

 echo ( new TesseractOCR ( ' img.png ' ))
    -> tessdataDir ( ' /path ' )
    -> run ();

使用者詞

指定使用者單字檔案的位置。

這是一個純文字文件，其中包含您希望tesseract將其視為普通字典單字的單字清單。

在處理包含技術術語、行話等的內容時很有用。

 $ cat /path/to/user-words.txt
foo
bar

 echo ( new TesseractOCR ( ' img.png ' ))
    -> userWords ( ' /path/to/user-words.txt ' )
    -> run ();

使用者模式

指定使用者模式檔案的位置。

如果您正在處理的內容具有已知的模式，此選項可以幫助提高超正方體的辨識準確性。

 $ cat /path/to/user-patterns.txt'
1-ddd-GOOG-441
www.n\*.com

 echo ( new TesseractOCR ( ' img.png ' ))
    -> userPatterns ( ' /path/to/user-patterns.txt ' )
    -> run ();

郎

定義識別期間要使用的一種或多種語言。可用語言的完整清單可以在以下位置找到：https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc#languages

來自 @daijiale 的提示：使用組合->lang('chi_sim', 'chi_tra')來正確識別中文。

 echo ( new TesseractOCR ( ' img.png ' ))
     -> lang ( ' lang1 ' , ' lang2 ' , ' lang3 ' )
     -> run ();

PSM

指定頁面分割方法，它指示tesseract如何解釋給定的圖像。

更多資訊： https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality#page-segmentation-method

 echo ( new TesseractOCR ( ' img.png ' ))
    -> psm ( 6 )
    -> run ();

貼牌生產

指定 OCR 引擎模式。（參見tesseract --help-oem ）

 echo ( new TesseractOCR ( ' img.png ' ))
    -> oem ( 2 )
    -> run ();

解析度

指定影像 DPI。如果您的圖像的元資料中不包含此信息，那麼它會很有用。

 echo ( new TesseractOCR ( ' img.png ' ))
    -> dpi ( 300 )
    -> run ();

允許名單

這是->config('tessedit_char_whitelist', 'abcdef....')的捷徑。

 echo ( new TesseractOCR ( ' img.png ' ))
    -> allowlist ( range ( ' a ' , ' z ' ), range ( 0 , 9 ), ' -_@ ' )
    -> run ();

設定檔

指定要使用的設定檔。它可以是您自己的設定檔的路徑，也可以是預先定義設定檔之一的名稱：https://github.com/tesseract-ocr/tesseract/tree/master/tessdata/configs

 echo ( new TesseractOCR ( ' img.png ' ))
    -> configFile ( ' hocr ' )
    -> run ();

設定輸出檔案

指定要使用的輸出檔。請注意：如果您設定了輸出文件，則withoutTempFiles選項將被忽略。即使withoutTempFiles = true也會寫入（和刪除）臨時檔案。

與configFile結合使用，您可以獲得hocr 、 tsv或pdf檔。

 echo ( new TesseractOCR ( ' img.png ' ))
    -> configFile ( ' pdf ' )
    -> setOutputFile ( ' /PATH_TO_MY_OUTPUTFILE/searchable.pdf ' )
    -> run ();

數位

->configFile('digits')的捷徑。

 echo ( new TesseractOCR ( ' img.png ' ))
    -> digits ()
    -> run ();

霍克

->configFile('hocr')的捷徑。

 echo ( new TesseractOCR ( ' img.png ' ))
    -> hocr ()
    -> run ();

pdf

->configFile('pdf')的捷徑。

 echo ( new TesseractOCR ( ' img.png ' ))
    -> pdf ()
    -> run ();

安靜的

->configFile('quiet')的捷徑。

 echo ( new TesseractOCR ( ' img.png ' ))
    -> quiet ()
    -> run ();

TSV

->configFile('tsv')的捷徑。

 echo ( new TesseractOCR ( ' img.png ' ))
    -> tsv ()
    -> run ();

TXT

->configFile('txt')的捷徑。

 echo ( new TesseractOCR ( ' img.png ' ))
    -> txt ()
    -> run ();

暫存目錄

定義一個自訂目錄來儲存tesseract產生的暫存檔案。確保該目錄確實存在並且允許運行php的使用者在其中寫入。

 echo ( new TesseractOCR ( ' img.png ' ))
    -> tempDir ( ' ./my/custom/temp/dir ' )
    -> run ();

沒有臨時文件

指定tesseract應輸出識別的文字而不寫入暫存檔案。相反，數據是從tesseract的標準輸出中收集的。

 echo ( new TesseractOCR ( ' img.png ' ))
    -> withoutTempFiles ()
    -> run ();

其他選項

Tesseract 提供的任何設定選項都可以這樣使用：

 echo ( new TesseractOCR ( ' img.png ' ))
    -> config ( ' config_var ' , ' value ' )
    -> config ( ' other_config_var ' , ' other value ' )
    -> run ();

或者像這樣：

 echo ( new TesseractOCR ( ' img.png ' ))
    -> configVar ( ' value ' )
    -> otherConfigVar ( ' other value ' )
    -> run ();

更多資訊： https://github.com/tesseract-ocr/tesseract/wiki/ControlParams

線程限制

有時，限制 tesseract 允許使用的執行緒數量可能很有用（例如在本例中）。將最大線程數設定為run函數的參數：

 echo ( new TesseractOCR ( ' img.png ' ))
    -> threadLimit ( 1 )
    -> run ();

如何貢獻

您可以透過以下方式為該專案做出貢獻：

如果您發現錯誤或希望提出新功能，請開啟問題；
使用修復錯誤、缺失/錯誤文件或實現新功能的程式碼發出拉取請求；

請務必查看我們的行為準則和貢獻說明。

執照

tesseract-ocr-for-php 是根據 MIT 許可證發布的。

_{製成在柏林}

展開

附加信息

版本 1.0.0
類型其他類別
更新時間 2024-12-21
大小 13.65KB
來自於 Github

相關應用

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
wp functions

其他類別

1.0.0
termwind

其他類別

v2.3.0
slugify

其他類別

Version 4.6.0 (10 September 2024)
waymo open dataset

其他源碼

December 2023 Update
wp functions

其他類別

1.0.0
termwind

其他類別

v2.3.0

相關資訊全部