Este paquete contiene un motor OCR - libtesseract
y un programa de línea de comandos - tesseract
.
Tesseract 4 agrega un nuevo motor OCR basado en la red neuronal (LSTM) que se centra en el reconocimiento de línea, pero también admite el motor Legacy Tesseract OCR de Tesseract 3 que funciona al reconocer los patrones de caracteres. La compatibilidad con Tesseract 3 se habilita utilizando el modo de motor OCR heredado (--oem 0). También necesita archivos de Data capacitado que admitan el motor heredado, por ejemplo, los del repositorio de TessData.
Stefan Weil es el actual desarrollador principal. Ray Smith fue el desarrollador principal hasta 2018. El mantenedor es Zdenko Podobny. Para una lista de contribuyentes, consulte los autores y el registro de contribuyentes de Github.
Tesseract tiene soporte Unicode (UTF-8) y puede reconocer más de 100 idiomas "fuera de la caja".
Tesseract admite varios formatos de imagen, incluidos PNG, JPEG y TIFF.
Tesseract admite varios formatos de salida : texto sin formato, HOCR (HTML), PDF, PDF de texto invisible, TSV, ALTO y PAGE.
Debe tener en cuenta que en muchos casos, para obtener mejores resultados de OCR, necesitará mejorar la calidad de la imagen que está dando a Tesseract.
Este proyecto no incluye una aplicación GUI . Si necesita uno, consulte la documentación del tercer partido.
Tesseract puede ser entrenado para reconocer otros idiomas . Ver Tesseract Training para obtener más información.
Tesseract se desarrolló originalmente en Hewlett-Packard Laboratories Bristol UK y en Hewlett-Packard Co, Greeley Colorado USA entre 1985 y 1994, con algunos cambios más realizados en 1996 a puertos a ventanas, y algunos c ++ izing en 1998. En 2005 Tesseract. fue abierto de origen por HP. Desde 2006 hasta noviembre de 2018 fue desarrollado por Google.
Mayor versión 5 es la versión estable actual y comenzó con la versión 5.0.0 el 30 de noviembre de 2021. Las versiones menores y versiones menores más nuevas están disponibles en GitHub.
El último código fuente está disponible en la rama principal en GitHub. Se pueden encontrar problemas abiertos en el rastreador de problemas y la documentación de planificación.
Consulte las notas de la versión y cambie el registro para obtener más detalles de las versiones.
Puede instalar Tesseract a través del paquete binario preconstruido o construirlo desde la fuente.
Antes de construir Tesseract desde la fuente, verifique que su sistema tenga un compilador que es uno de los compiladores compatibles.
Uso básico de la línea de comando :
tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]
Para obtener más información sobre las diversas opciones de línea de comandos, use tesseract --help
o man tesseract
.
Se pueden encontrar ejemplos en la documentación.
Los desarrolladores pueden usar la API libtesseract
C o C ++ para construir su propia aplicación. Si necesita enlaces a libtesseract
para otros lenguajes de programación, consulte la sección WRAPPER en la documentación de complementos.
La documentación de Tesseract generada a partir del código fuente por Doxygen se puede encontrar en tesseract-oCr.Github.io.
Antes de enviar un problema, revise las pautas para este repositorio .
Para el soporte, primero lea la documentación, particularmente las preguntas frecuentes para ver si su problema se aborda allí. De lo contrario, busque en el foro de usuarios de Tesseract, el foro de desarrolladores de Tesseract y los problemas pasados, y si aún no puede encontrar lo que necesita, solicite apoyo en las listas de correo.
Listas de correo:
Informe un problema solo para un error , no para hacer preguntas.
The code in this repository is licensed under the Apache License, Version 2.0 (the "License");
you may not use this file except in compliance with the License.
You may obtain a copy of the License at
http://www.apache.org/licenses/LICENSE-2.0
Unless required by applicable law or agreed to in writing, software
distributed under the License is distributed on an "AS IS" BASIS,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
See the License for the specific language governing permissions and
limitations under the License.
Nota : Este software depende de otros paquetes que puedan tener licencia con diferentes licencias de código abierto.
Tesseract utiliza la Biblioteca Leptonica que esencialmente usa una licencia BSD 2 Cláusula.
Tesseract utiliza la biblioteca Leptonica para abrir imágenes de entrada (por ejemplo, no documentos como PDF). Se sugiere que use Leptonica con soporte incorporado para ZLIB, PNG y TIFF (para TIFF multipage).
Para obtener la última versión en línea de ReadMe.md, consulte:
https://github.com/tesseract-ocr/tesseract/blob/main/readme.md