Baixar tesseract ocr for php - download do código-fonte tesseract ocr for php

tesseract ocr for php

Outras categorias

1.0.0

Baixar

OCR Tesseract para PHP

Um wrapper para trabalhar com Tesseract OCR dentro de PHP.

Instalação

Através do Compositor:

 $ composer require thiagoalessio/tesseract_ocr

‼ Esta biblioteca depende do Tesseract OCR, versão 3.02 ou posterior.

Nota para usuários do Windows

Há muitas maneiras de instalar o Tesseract OCR em seu sistema, mas se você deseja apenas que algo rápido seja instalado e executado, recomendo instalar o pacote Capture2Text com Chocolatey.

 choco install capture2text --version 3.9

Versões recentes do Capture2Text pararam de enviar o binário tesseract .

Nota para usuários do macOS

Com MacPorts você pode instalar suporte para idiomas individuais, assim:

 $ sudo port install tesseract-<langcode>

Mas isso não é possível com o Homebrew. Ele vem apenas com suporte para inglês por padrão, então se você pretende usá-lo para outro idioma, a solução mais rápida é instalar todos eles:

 $ brew install tesseract tesseract-lang

Uso

Uso básico

A rápida raposa marrom salta sobre o cachorro preguiçoso.

 use thiagoalessio  TesseractOCR  TesseractOCR ;
echo ( new TesseractOCR ( ' text.png ' ))
    -> run ();

 The quick brown fox
jumps over
the lazy dog.

Outros idiomas

Bülowstraße

 use thiagoalessio  TesseractOCR  TesseractOCR ;
echo ( new TesseractOCR ( ' german.png ' ))
    -> lang ( ' deu ' )
    -> run ();

 Bülowstraße

Vários idiomas

Eu como すし e Pollo

 use thiagoalessio  TesseractOCR  TesseractOCR ;
echo ( new TesseractOCR ( ' mixed-languages.png ' ))
    -> lang ( ' eng ' , ' jpn ' , ' spa ' )
    -> run ();

 I eat すし y Pollo

Induzindo reconhecimento

8055

 use thiagoalessio  TesseractOCR  TesseractOCR ;
echo ( new TesseractOCR ( ' 8055.png ' ))
    -> allowlist ( range ( ' A ' , ' Z ' ))
    -> run ();

 BOSS

Quebrando CAPTCHAs

Sim, eu sei que alguns de vocês podem querer usar esta biblioteca com o nobre propósito de quebrar CAPTCHAs, então dê uma olhada neste comentário:

#91 (comentário)

API

correr

Executa um comando tesseract , recebendo opcionalmente um número inteiro como timeout , caso você tenha processos de tesseract paralisados.

 $ ocr = new TesseractOCR ();
$ ocr -> run ();

 $ ocr = new TesseractOCR ();
$ timeout = 500 ;
$ ocr -> run ( $ timeout );

imagem

Defina o caminho de uma imagem a ser reconhecida pelo tesseract .

 $ ocr = new TesseractOCR ();
$ ocr -> image ( ' /path/to/image.png ' );
$ ocr -> run ();

dados de imagem

Defina a imagem a ser reconhecida pelo tesseract a partir de uma string, com seu tamanho. Isto pode ser útil ao lidar com arquivos que já estão carregados na memória. Você pode recuperar facilmente os dados da imagem e o tamanho de um objeto de imagem:

 //Using Imagick
$ data = $ img -> getImageBlob ();
$ size = $ img -> getImageLength ();
//Using GD
ob_start ();
// Note that you can use any format supported by tesseract
imagepng ( $ img , null , 0 );
$ size = ob_get_length ();
$ data = ob_get_clean ();

$ ocr = new TesseractOCR ();
$ ocr -> imageData ( $ data , $ size );
$ ocr -> run ();

executável

Defina um local personalizado para o executável tesseract , se por algum motivo ele não estiver presente no $PATH .

 echo ( new TesseractOCR ( ' img.png ' ))
    -> executable ( ' /path/to/tesseract ' )
    -> run ();

versão

Retorna a versão atual do tesseract .

 echo ( new TesseractOCR ())-> version ();

idiomas disponíveis

Retorna uma lista de idiomas/scripts disponíveis.

 foreach (( new TesseractOCR ())-> availableLanguages () as $ lang ) echo $ lang ;

Mais informações: https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc#languages-and-scripts

tessdataDir

Especifique um local customizado para o diretório tessdata.

 echo ( new TesseractOCR ( ' img.png ' ))
    -> tessdataDir ( ' /path ' )
    -> run ();

palavras do usuário

Especifique o local do arquivo de palavras do usuário.

Este é um arquivo de texto simples contendo uma lista de palavras que você deseja que sejam consideradas palavras normais do dicionário por tesseract .

Útil ao lidar com conteúdos que contenham terminologia técnica, jargões, etc.

 $ cat /path/to/user-words.txt
foo
bar

 echo ( new TesseractOCR ( ' img.png ' ))
    -> userWords ( ' /path/to/user-words.txt ' )
    -> run ();

padrões de usuário

Especifique o local do arquivo de padrões do usuário.

Se o conteúdo com o qual você está lidando possui padrões conhecidos, esta opção pode ajudar muito na precisão do reconhecimento do tesseract.

 $ cat /path/to/user-patterns.txt'
1-ddd-GOOG-441
www.n\*.com

 echo ( new TesseractOCR ( ' img.png ' ))
    -> userPatterns ( ' /path/to/user-patterns.txt ' )
    -> run ();

idioma

Defina um ou mais idiomas a serem utilizados durante o reconhecimento. Uma lista completa de idiomas disponíveis pode ser encontrada em: https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc#languages

Dica de @daijiale: Use a combinação ->lang('chi_sim', 'chi_tra') para o reconhecimento adequado do chinês.

 echo ( new TesseractOCR ( ' img.png ' ))
     -> lang ( ' lang1 ' , ' lang2 ' , ' lang3 ' )
     -> run ();

psm

Especifique o método de segmentação de página, que instrui tesseract sobre como interpretar a imagem fornecida.

Mais informações: https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality#page-segmentation-method

 echo ( new TesseractOCR ( ' img.png ' ))
    -> psm ( 6 )
    -> run ();

oem

Especifique o modo do mecanismo de OCR. (veja tesseract --help-oem )

 echo ( new TesseractOCR ( ' img.png ' ))
    -> oem ( 2 )
    -> run ();

dpi

Especifique o DPI da imagem. É útil se a sua imagem não contém esta informação nos seus metadados.

 echo ( new TesseractOCR ( ' img.png ' ))
    -> dpi ( 300 )
    -> run ();

lista de permissões

Este é um atalho para ->config('tessedit_char_whitelist', 'abcdef....') .

 echo ( new TesseractOCR ( ' img.png ' ))
    -> allowlist ( range ( ' a ' , ' z ' ), range ( 0 , 9 ), ' -_@ ' )
    -> run ();

arquivo de configuração

Especifique um arquivo de configuração a ser usado. Pode ser o caminho para o seu próprio arquivo de configuração ou o nome de um dos arquivos de configuração predefinidos: https://github.com/tesseract-ocr/tesseract/tree/master/tessdata/configs

 echo ( new TesseractOCR ( ' img.png ' ))
    -> configFile ( ' hocr ' )
    -> run ();

setOutputFile

Especifique um arquivo de saída a ser usado. Esteja ciente: se você definir um arquivo de saída, a opção withoutTempFiles será ignorada. Arquivos temporários são gravados (e excluídos) mesmo que withoutTempFiles = true .

Em combinação com configFile você pode obter os arquivos hocr , tsv ou pdf .

 echo ( new TesseractOCR ( ' img.png ' ))
    -> configFile ( ' pdf ' )
    -> setOutputFile ( ' /PATH_TO_MY_OUTPUTFILE/searchable.pdf ' )
    -> run ();

dígitos

Atalho para ->configFile('digits') .

 echo ( new TesseractOCR ( ' img.png ' ))
    -> digits ()
    -> run ();

hocr

Atalho para ->configFile('hocr') .

 echo ( new TesseractOCR ( ' img.png ' ))
    -> hocr ()
    -> run ();

pdf

Atalho para ->configFile('pdf') .

 echo ( new TesseractOCR ( ' img.png ' ))
    -> pdf ()
    -> run ();

quieto

Atalho para ->configFile('quiet') .

 echo ( new TesseractOCR ( ' img.png ' ))
    -> quiet ()
    -> run ();

tv

Atalho para ->configFile('tsv') .

 echo ( new TesseractOCR ( ' img.png ' ))
    -> tsv ()
    -> run ();

TXT

Atalho para ->configFile('txt') .

 echo ( new TesseractOCR ( ' img.png ' ))
    -> txt ()
    -> run ();

tempDir

Defina um diretório personalizado para armazenar arquivos temporários gerados pelo tesseract. Certifique-se de que o diretório realmente exista e que o usuário que executa php tenha permissão para escrever nele.

 echo ( new TesseractOCR ( ' img.png ' ))
    -> tempDir ( ' ./my/custom/temp/dir ' )
    -> run ();

semTempFiles

Especifique que tesseract deve gerar o texto reconhecido sem gravar em arquivos temporários. Os dados são coletados da saída padrão do tesseract .

 echo ( new TesseractOCR ( ' img.png ' ))
    -> withoutTempFiles ()
    -> run ();

Outras opções

Qualquer opção de configuração oferecida pelo Tesseract pode ser usada assim:

 echo ( new TesseractOCR ( ' img.png ' ))
    -> config ( ' config_var ' , ' value ' )
    -> config ( ' other_config_var ' , ' other value ' )
    -> run ();

Ou assim:

 echo ( new TesseractOCR ( ' img.png ' ))
    -> configVar ( ' value ' )
    -> otherConfigVar ( ' other value ' )
    -> run ();

Mais informações: https://github.com/tesseract-ocr/tesseract/wiki/ControlParams

Limite de thread

Às vezes, pode ser útil limitar o número de threads que o tesseract pode usar (por exemplo, neste caso). Defina o número máximo de threads como parâmetro para a função run :

 echo ( new TesseractOCR ( ' img.png ' ))
    -> threadLimit ( 1 )
    -> run ();

Como contribuir

Você pode contribuir para este projeto:

Abrindo um Issue se você encontrou um bug ou deseja propor um novo recurso;
Colocar um Pull Request com código que corrija um bug, documentação faltante/errada ou implemente um novo recurso;

Apenas certifique-se de dar uma olhada em nosso Código de Conduta e instruções de contribuição.