该软件包包含OCR引擎libtesseract
和命令行程序tesseract
。
Tesseract 4添加了一个新的基于神经网(LSTM)的OCR引擎,该发动机侧重于线路识别,但仍然支持Tesseract 3的传统Tesseract OCR发动机,该发动机通过识别字符模式而起作用。通过使用Legacy OCR引擎模式(-OEM 0)启用与Tesseract 3的兼容性。它还需要训练有素的文件,这些文件支持传统引擎,例如Tessdata存储库的文件。
Stefan Weil是当前的主要开发人员。雷·史密斯(Ray Smith)一直是首席开发商,直到2018年为止。维护者是Zdenko Podobny。有关贡献者的列表,请参见作者和Github的贡献者日志。
Tesseract具有Unicode(UTF-8)支持,并且可以识别100多种“开箱即用”。
Tesseract支持各种图像格式,包括PNG,JPEG和TIFF。
Tesseract支持各种输出格式:纯文本,HOCR(HTML),PDF,Invisible-Text-forly PDF,TSV,Alto和Page。
您应该注意,在许多情况下,为了获得更好的OCR结果,您需要提高您提供的图像的质量。
该项目不包括GUI应用程序。如果需要,请参阅第三部分文档。
可以训练Tesseract识别其他语言。有关更多信息,请参见Tesseract培训。
Tesseract最初是在1985年至1994年之间在美国格里利科罗拉多州的惠普实验室和美国格里利科罗拉多州的惠普在美国的惠普实验室开发的,1996年在1996年对Windows进行了一些更改,并在1998年进行了一些C ++ Izing。由惠普开放。从2006年到2018年11月,它是由Google开发的。
主要版本5是当前稳定版本,从2021年11月30日发行版5.0.0开始。较新的次要版本和BugFix版本可从GitHub获得。
最新的源代码可从GitHub的Main Branch获得。可以在问题跟踪器和计划文档中找到开放问题。
有关发行版的更多详细信息,请参见发行说明并更改日志。
您可以通过预构建的二进制软件包安装Tesseract,也可以从源构建。
在从源构建Tesseract之前,请检查您的系统是否具有编译器,该编译器是受支持的编译器之一。
基本命令行的用法:
tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]
有关各种命令行选项的更多信息,请使用tesseract --help
或man tesseract
。
示例可以在文档中找到。
开发人员可以使用libtesseract
C或C ++ API来构建自己的应用程序。如果您需要与其他编程语言的libtesseract
绑定,请参阅插件文档中的包装部分。
可以在tesseract-ocr.github.io上找到从源代码生成的tesseract文档。
在提交问题之前,请查看此存储库的准则。
为了支持,首先阅读文档,特别是常见问题解答,以查看您的问题是否已解决。如果没有,请搜索Tesseract用户论坛,Tesseract开发人员论坛和过去的问题,如果您仍然找不到所需的内容,请在邮件列表中寻求支持。
邮寄列表:
请仅针对错误报告问题,而不是问问题。
The code in this repository is licensed under the Apache License, Version 2.0 (the "License");
you may not use this file except in compliance with the License.
You may obtain a copy of the License at
http://www.apache.org/licenses/LICENSE-2.0
Unless required by applicable law or agreed to in writing, software
distributed under the License is distributed on an "AS IS" BASIS,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
See the License for the specific language governing permissions and
limitations under the License.
注意:该软件取决于可能在不同的开源许可下获得许可的其他软件包。
Tesseract使用Leptonica库,该库基本上使用BSD 2-CAREASE许可证。
Tesseract使用Leptonica库进行打开输入图像(例如,不是像PDF这样的文档)。建议将Leptonica使用对Zlib,PNG和TIFF的内置支持(用于乘法TIFF)。
有关最新在线版本的readme.md,请参见:
https://github.com/tesseract-ocr/tesseract/blob/main/readme.md