tesseract ocr for php下载 - tesseract ocr for php源代码下载

tesseract ocr for php

其他类别

1.0.0

下载

适用于 PHP 的 Tesseract OCR

在 PHP 中使用 Tesseract OCR 的包装器。

安装

通过作曲家：

 $ composer require thiagoalessio/tesseract_ocr

‼该库依赖于 Tesseract OCR 3.02或更高版本。

Windows 用户注意事项

在您的系统上安装 Tesseract OCR 的方法有很多，但如果您只是想要快速启动和运行，我建议使用 Chocolatey 安装 Capture2Text 包。

 choco install capture2text --version 3.9

最新版本的 Capture2Text 停止提供tesseract二进制文件。

macOS 用户注意事项

使用 MacPorts，您可以安装对各种语言的支持，如下所示：

 $ sudo port install tesseract-<langcode>

但这对于 Homebrew 来说是不可能的。默认情况下它仅支持英语，因此如果您打算将其用于其他语言，最快的解决方案是将它们全部安装：

 $ brew install tesseract tesseract-lang

用法

基本用法

敏捷的棕色狐狸跳过了那只懒狗。

 use thiagoalessio  TesseractOCR  TesseractOCR ;
echo ( new TesseractOCR ( ' text.png ' ))
    -> run ();

 The quick brown fox
jumps over
the lazy dog.

其他语言

布洛大街

 use thiagoalessio  TesseractOCR  TesseractOCR ;
echo ( new TesseractOCR ( ' german.png ' ))
    -> lang ( ' deu ' )
    -> run ();

 Bülowstraße

多种语言

我吃すし y Pollo

 use thiagoalessio  TesseractOCR  TesseractOCR ;
echo ( new TesseractOCR ( ' mixed-languages.png ' ))
    -> lang ( ' eng ' , ' jpn ' , ' spa ' )
    -> run ();

 I eat すし y Pollo

诱导认可

8055

 use thiagoalessio  TesseractOCR  TesseractOCR ;
echo ( new TesseractOCR ( ' 8055.png ' ))
    -> allowlist ( range ( ' A ' , ' Z ' ))
    -> run ();

 BOSS

破解验证码

是的，我知道你们中的一些人可能想使用这个库来达到破解验证码的崇高目的，所以请看看这个评论：

第91章（评论）

应用程序编程接口

跑步

执行tesseract命令，可选地接收一个整数作为timeout ，以防您遇到 tesseract 进程停滞的情况。

 $ ocr = new TesseractOCR ();
$ ocr -> run ();

 $ ocr = new TesseractOCR ();
$ timeout = 500 ;
$ ocr -> run ( $ timeout );

图像

定义tesseract识别的图像的路径。

 $ ocr = new TesseractOCR ();
$ ocr -> image ( ' /path/to/image.png ' );
$ ocr -> run ();

图像数据

设置要由tesseract从字符串中识别的图像及其大小。这在处理已加载到内存中的文件时非常有用。您可以轻松检索图像数据和图像对象的大小：

 //Using Imagick
$ data = $ img -> getImageBlob ();
$ size = $ img -> getImageLength ();
//Using GD
ob_start ();
// Note that you can use any format supported by tesseract
imagepng ( $ img , null , 0 );
$ size = ob_get_length ();
$ data = ob_get_clean ();

$ ocr = new TesseractOCR ();
$ ocr -> imageData ( $ data , $ size );
$ ocr -> run ();

可执行文件

定义tesseract可执行文件的自定义位置（如果由于任何原因它不存在于$PATH中）。

 echo ( new TesseractOCR ( ' img.png ' ))
    -> executable ( ' /path/to/tesseract ' )
    -> run ();

版本

返回tesseract的当前版本。

 echo ( new TesseractOCR ())-> version ();

可用语言

返回可用语言/脚本的列表。

 foreach (( new TesseractOCR ())-> availableLanguages () as $ lang ) echo $ lang ;

更多信息： https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc#languages-and-scripts

tessdata目录

指定 tessdata 目录的自定义位置。

 echo ( new TesseractOCR ( ' img.png ' ))
    -> tessdataDir ( ' /path ' )
    -> run ();

用户词

指定用户单词文件的位置。

这是一个纯文本文件，其中包含您希望tesseract将其视为普通字典单词的单词列表。

在处理包含技术术语、行话等的内容时很有用。

 $ cat /path/to/user-words.txt
foo
bar

 echo ( new TesseractOCR ( ' img.png ' ))
    -> userWords ( ' /path/to/user-words.txt ' )
    -> run ();

用户模式

指定用户模式文件的位置。

如果您正在处理的内容具有已知的模式，此选项可以帮助提高超正方体的识别准确性。

 $ cat /path/to/user-patterns.txt'
1-ddd-GOOG-441
www.n\*.com

 echo ( new TesseractOCR ( ' img.png ' ))
    -> userPatterns ( ' /path/to/user-patterns.txt ' )
    -> run ();

郎

定义识别期间要使用的一种或多种语言。可用语言的完整列表可以在以下位置找到：https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc#languages

来自 @daijiale 的提示：使用组合->lang('chi_sim', 'chi_tra')来正确识别中文。

 echo ( new TesseractOCR ( ' img.png ' ))
     -> lang ( ' lang1 ' , ' lang2 ' , ' lang3 ' )
     -> run ();

PSM

指定页面分割方法，它指示tesseract如何解释给定的图像。

更多信息： https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality#page-segmentation-method

 echo ( new TesseractOCR ( ' img.png ' ))
    -> psm ( 6 )
    -> run ();

贴牌生产

指定 OCR 引擎模式。（参见tesseract --help-oem ）

 echo ( new TesseractOCR ( ' img.png ' ))
    -> oem ( 2 )
    -> run ();

分辨率

指定图像 DPI。如果您的图像的元数据中不包含此信息，那么它会很有用。

 echo ( new TesseractOCR ( ' img.png ' ))
    -> dpi ( 300 )
    -> run ();

允许名单

这是->config('tessedit_char_whitelist', 'abcdef....')的快捷方式。

 echo ( new TesseractOCR ( ' img.png ' ))
    -> allowlist ( range ( ' a ' , ' z ' ), range ( 0 , 9 ), ' -_@ ' )
    -> run ();

配置文件

指定要使用的配置文件。它可以是您自己的配置文件的路径，也可以是预定义配置文件之一的名称：https://github.com/tesseract-ocr/tesseract/tree/master/tessdata/configs

 echo ( new TesseractOCR ( ' img.png ' ))
    -> configFile ( ' hocr ' )
    -> run ();

设置输出文件

指定要使用的输出文件。请注意：如果您设置了输出文件，则withoutTempFiles选项将被忽略。即使withoutTempFiles = true也会写入（和删除）临时文件。

与configFile结合使用，您可以获得hocr 、 tsv或pdf文件。

 echo ( new TesseractOCR ( ' img.png ' ))
    -> configFile ( ' pdf ' )
    -> setOutputFile ( ' /PATH_TO_MY_OUTPUTFILE/searchable.pdf ' )
    -> run ();

数字

->configFile('digits')的快捷方式。

 echo ( new TesseractOCR ( ' img.png ' ))
    -> digits ()
    -> run ();

霍克尔

->configFile('hocr')的快捷方式。

 echo ( new TesseractOCR ( ' img.png ' ))
    -> hocr ()
    -> run ();

pdf

->configFile('pdf')的快捷方式。

 echo ( new TesseractOCR ( ' img.png ' ))
    -> pdf ()
    -> run ();

安静的

->configFile('quiet')的快捷方式。

 echo ( new TesseractOCR ( ' img.png ' ))
    -> quiet ()
    -> run ();

TSV

->configFile('tsv')的快捷方式。

 echo ( new TesseractOCR ( ' img.png ' ))
    -> tsv ()
    -> run ();

TXT

->configFile('txt')的快捷方式。

 echo ( new TesseractOCR ( ' img.png ' ))
    -> txt ()
    -> run ();

临时目录

定义一个自定义目录来存储tesseract生成的临时文件。确保该目录确实存在并且允许运行php的用户在其中写入。

 echo ( new TesseractOCR ( ' img.png ' ))
    -> tempDir ( ' ./my/custom/temp/dir ' )
    -> run ();

没有临时文件

指定tesseract应输出识别的文本而不写入临时文件。相反，数据是从tesseract的标准输出中收集的。

 echo ( new TesseractOCR ( ' img.png ' ))
    -> withoutTempFiles ()
    -> run ();

其他选项

Tesseract 提供的任何配置选项都可以这样使用：

 echo ( new TesseractOCR ( ' img.png ' ))
    -> config ( ' config_var ' , ' value ' )
    -> config ( ' other_config_var ' , ' other value ' )
    -> run ();

或者像这样：

 echo ( new TesseractOCR ( ' img.png ' ))
    -> configVar ( ' value ' )
    -> otherConfigVar ( ' other value ' )
    -> run ();

更多信息： https://github.com/tesseract-ocr/tesseract/wiki/ControlParams

线程限制

有时，限制 tesseract 允许使用的线程数量可能很有用（例如在本例中）。将最大线程数设置为run函数的参数：

 echo ( new TesseractOCR ( ' img.png ' ))
    -> threadLimit ( 1 )
    -> run ();

如何贡献

您可以通过以下方式为该项目做出贡献：

如果您发现错误或希望提出新功能，请打开问题；
使用修复错误、缺失/错误文档或实现新功能的代码发出拉取请求；

请务必查看我们的行为准则和贡献说明。

执照

tesseract-ocr-for-php 是根据 MIT 许可证发布的。

_{制成在柏林}

展开

附加信息

版本 1.0.0
类型其他类别
更新时间 2024-12-21
大小 13.65KB
来自于 Github