Este pacote contém um mecanismo OCR - libtesseract
e um programa de linha de comando - tesseract
.
O TESSERACT 4 adiciona um novo mecanismo OCR baseado em rede neural (LSTM), focado no reconhecimento de linhas, mas também suporta o mecanismo Legacy Tesseract OCR do Tesseract 3, que funciona reconhecendo padrões de caracteres. A compatibilidade com o TESSERACT 3 é ativada usando o modo Legacy OCR Engine (--oem 0). Ele também precisa de arquivos TreinedData que suportam o mecanismo herdado, por exemplo, aqueles do repositório TessData.
Stefan Weil é o atual desenvolvedor principal. Ray Smith foi o principal desenvolvedor até 2018. O mantenedor é Zdenko Podobny. Para uma lista de colaboradores, consulte os autores e o registro de colaboradores do Github.
O TESSERACT possui suporte Unicode (UTF-8) e pode reconhecer mais de 100 idiomas "fora da caixa".
O TESSERACT suporta vários formatos de imagem, incluindo PNG, JPEG e TIFF.
O TESSERACT suporta vários formatos de saída : texto simples, hocr (html), pdf, pdf apenas de texto invisível, tsv, alto e página.
Você deve observar que, em muitos casos, para obter melhores resultados de OCR, precisará melhorar a qualidade da imagem que você está dando TESSERACT.
Este projeto não inclui um aplicativo da GUI . Se precisar de um, consulte a documentação da 3rdParty.
O TESSERACT pode ser treinado para reconhecer outros idiomas . Consulte Treinamento TESSERACT Para obter mais informações.
O TESSERACT foi originalmente desenvolvido na Hewlett-Packard Laboratories Bristol UK e na Hewlett-Packard Co, Greeley Colorado USA entre 1985 e 1994, com mais algumas mudanças feitas em 1996 para o Windows e alguns c ++ em 1998. Em 2005 foi de origem aberta pela HP. De 2006 a novembro de 2018, foi desenvolvido pelo Google.
A versão principal 5 é a versão estável atual e iniciada com a versão 5.0.0 em 30 de novembro de 2021. Versões menores e versões mais recentes estão disponíveis no GitHub.
O código fonte mais recente está disponível na filial principal no Github. Questões abertas podem ser encontradas no rastreador de questões e documentação de planejamento.
Consulte Notas de lançamento e alteração de log para obter mais detalhes dos lançamentos.
Você pode instalar o TESSERACT via pacote binário pré-criado ou construí-lo a partir da fonte.
Antes de criar o Tesseract a partir da fonte, verifique se o seu sistema possui um compilador que é um dos compiladores suportados.
Uso básico da linha de comando :
tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]
Para obter mais informações sobre as várias opções de linha de comando, use tesseract --help
ou man tesseract
.
Exemplos podem ser encontrados na documentação.
Os desenvolvedores podem usar a API libtesseract
C ou C ++ para criar seu próprio aplicativo. Se você precisar de ligações ao libtesseract
para outras linguagens de programação, consulte a seção Wrapper na documentação dos complementos.
A documentação do TESSERACT gerada a partir do código-fonte pelo doxygen pode ser encontrada no TESSERACT-ACR.Github.io.
Antes de enviar um problema, revise as diretrizes para este repositório .
Para suporte, leia primeiro a documentação, particularmente as perguntas frequentes para ver se o seu problema é resolvido lá. Caso contrário, pesquise no fórum do usuário do TESSERACT, o fórum do desenvolvedor do TESSERACT e os problemas anteriores e, se você ainda não conseguir encontrar o que precisa, peça suporte nas listas de correspondência.
Listas de correspondência:
Por favor, relate um problema apenas para um bug , não para fazer perguntas.
The code in this repository is licensed under the Apache License, Version 2.0 (the "License");
you may not use this file except in compliance with the License.
You may obtain a copy of the License at
http://www.apache.org/licenses/LICENSE-2.0
Unless required by applicable law or agreed to in writing, software
distributed under the License is distributed on an "AS IS" BASIS,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
See the License for the specific language governing permissions and
limitations under the License.
Nota : Este software depende de outros pacotes que podem ser licenciados sob diferentes licenças de código aberto.
O TESSERACT usa a biblioteca Leptonica, que usa essencialmente uma licença de cláusula 2 BSD.
O TESSERACT usa a biblioteca Leptonica para abrir imagens de entrada (por exemplo, não documentos como o PDF). Sugere-se usar o Leptonica com suporte interno para Zlib, PNG e TIFF (para multipage TIFF).
Para a versão on -line mais recente do readme.md, consulte:
https://github.com/tesseract-ocr/tesseract/blob/main/readme.md