該軟件包包含OCR引擎libtesseract
和命令行程序tesseract
。
Tesseract 4添加了一個新的基於神經網(LSTM)的OCR引擎,該發動機側重於線路識別,但仍然支持Tesseract 3的傳統Tesseract OCR發動機,該發動機通過識別字符模式而起作用。通過使用Legacy OCR引擎模式(-OEM 0)啟用與Tesseract 3的兼容性。它還需要訓練有素的文件,這些文件支持傳統引擎,例如Tessdata存儲庫的文件。
Stefan Weil是當前的主要開發人員。雷·史密斯(Ray Smith)一直是首席開發商,直到2018年為止。維護者是Zdenko Podobny。有關貢獻者的列表,請參見作者和Github的貢獻者日誌。
Tesseract具有Unicode(UTF-8)支持,並且可以識別100多種“開箱即用”。
Tesseract支持各種圖像格式,包括PNG,JPEG和TIFF。
Tesseract支持各種輸出格式:純文本,HOCR(HTML),PDF,Invisible-Text-forly PDF,TSV,Alto和Page。
您應該注意,在許多情況下,為了獲得更好的OCR結果,您需要提高您提供的圖像的質量。
該項目不包括GUI應用程序。如果需要,請參閱第三部分文檔。
可以訓練Tesseract識別其他語言。有關更多信息,請參見Tesseract培訓。
Tesseract最初是在1985年至1994年之間在美國格里利科羅拉多州的惠普實驗室和美國格里利科羅拉多州的惠普在美國的惠普實驗室開發的,1996年在1996年對Windows進行了一些更改,並在1998年進行了一些C ++ Izing。由惠普開放。從2006年到2018年11月,它是由Google開發的。
主要版本5是當前穩定版本,從2021年11月30日發行版5.0.0開始。較新的次要版本和BugFix版本可從GitHub獲得。
最新的源代碼可從GitHub的Main Branch獲得。可以在問題跟踪器和計劃文檔中找到開放問題。
有關發行版的更多詳細信息,請參見發行說明並更改日誌。
您可以通過預構建的二進制軟件包安裝Tesseract,也可以從源構建。
在從源構建Tesseract之前,請檢查您的系統是否具有編譯器,該編譯器是受支持的編譯器之一。
基本命令行的用法:
tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]
有關各種命令行選項的更多信息,請使用tesseract --help
或man tesseract
。
示例可以在文檔中找到。
開發人員可以使用libtesseract
C或C ++ API來構建自己的應用程序。如果您需要與其他編程語言的libtesseract
綁定,請參閱插件文檔中的包裝部分。
可以在tesseract-ocr.github.io上找到從源代碼生成的tesseract文檔。
在提交問題之前,請查看此存儲庫的準則。
為了支持,首先閱讀文檔,特別是常見問題解答,以查看您的問題是否已解決。如果沒有,請搜索Tesseract用戶論壇,Tesseract開發人員論壇和過去的問題,如果您仍然找不到所需的內容,請在郵件列表中尋求支持。
郵寄列表:
請僅針對錯誤報告問題,而不是問問題。
The code in this repository is licensed under the Apache License, Version 2.0 (the "License");
you may not use this file except in compliance with the License.
You may obtain a copy of the License at
http://www.apache.org/licenses/LICENSE-2.0
Unless required by applicable law or agreed to in writing, software
distributed under the License is distributed on an "AS IS" BASIS,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
See the License for the specific language governing permissions and
limitations under the License.
注意:該軟件取決於可能在不同的開源許可下獲得許可的其他軟件包。
Tesseract使用Leptonica庫,該庫基本上使用BSD 2-CAREASE許可證。
Tesseract使用Leptonica庫進行打開輸入圖像(例如,不是像PDF這樣的文檔)。建議將Leptonica使用對Zlib,PNG和TIFF的內置支持(用於乘法TIFF)。
有關最新在線版本的readme.md,請參見:
https://github.com/tesseract-ocr/tesseract/blob/main/readme.md