Этот пакет содержит двигатель OCR - libtesseract
и программа командной строки - tesseract
.
Tesseract 4 добавляет новую нейронную сеть (LSTM) OCR двигателя OCR, который сосредоточен на распознавании линии, но также все еще поддерживает устаревший двигатель Tesseract OCR Tesseract 3, который работает путем распознавания шаблонов символов. Совместимость с Tesseract 3 включена с использованием режима Engine Legacy OCR (-OEM 0). Это также нуждаются в файлах Traindata, которые поддерживают устаревший двигатель, например, файлы из репозитория TessData.
Стефан Вейл - нынешний ведущий разработчик. Рэй Смит был ведущим разработчиком до 2018 года. Содействием является Zdenko Podobny. Список участников см. В журнале авторов и журнала авторов.
Tesseract обладает поддержкой Unicode (UTF-8) и может распознавать более 100 языков «из коробки».
Tesseract поддерживает различные форматы изображений , включая PNG, JPEG и TIFF.
Tesseract поддерживает различные выходные форматы : простой текст, HOCR (HTML), PDF, PDF только невидимый текст, TSV, Alto и Page.
Вы должны отметить, что во многих случаях, чтобы получить лучшие результаты OCR, вам нужно улучшить качество изображения, которое вы даете Tesseract.
Этот проект не включает в себя приложение GUI . Если вам это нужно, см. 3 -й документации.
Tesseract может быть обучен распознавать другие языки . Смотрите обучение Tesseract для получения дополнительной информации.
Tesseract был первоначально разработан в Hewlett-Packard Laboratories Bristol UK и в Hewlett-Packard Co, Greeley Colorado USA в период с 1985 по 1994 год, при этом в 1996 году были сделаны еще несколько изменений в порт в Windows, а также некоторые C ++ Izing. был открыт по производству HP. С 2006 по ноябрь 2018 года он был разработан Google.
Основная версия 5 является текущей стабильной версией и начала с выпуска 5.0.0 30 ноября 2021 года. Новые малые версии и версии Bugfix доступны в GitHub.
Последний исходный код доступен в основном филиале на GitHub. Открытые проблемы можно найти в выпуске Tracker и документацию по планированию.
См. Примечания к выпуску и изменение журнала для получения более подробной информации о выпусках.
Вы можете либо установить Tesseract через предварительно построенный двоичный пакет, либо создать его из Source.
Прежде чем строить Tesseract из источника, убедитесь, что в вашей системе есть компилятор, который является одним из поддерживаемых компиляторов.
Основное использование командной строки :
tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]
Для получения дополнительной информации о различных параметрах командной строки используйте tesseract --help
или man tesseract
.
Примеры можно найти в документации.
Разработчики могут использовать API libtesseract
C или C ++ для создания собственного приложения. Если вам нужны привязки с libtesseract
для других языков программирования, см. Раздел обертки в документации Addons.
Документация Tesseract, сгенерированное из исходного кода доксигеном, можно найти на Tesseract-ocr.github.io.
Прежде чем отправить проблему, просмотрите руководящие принципы для этого репозитория .
Для поддержки сначала прочитайте документацию, особенно FAQ, чтобы увидеть, решается ли ваша проблема. Если нет, то ищите форум пользователей Tesseract, форум разработчиков Tesseract и прошлые проблемы, и если вы все еще не можете найти то, что вам нужно, попросите поддержки в списках рассылки.
Списки рассылки:
Пожалуйста, сообщите о проблеме только для ошибки , а не для задания вопросов.
The code in this repository is licensed under the Apache License, Version 2.0 (the "License");
you may not use this file except in compliance with the License.
You may obtain a copy of the License at
http://www.apache.org/licenses/LICENSE-2.0
Unless required by applicable law or agreed to in writing, software
distributed under the License is distributed on an "AS IS" BASIS,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
See the License for the specific language governing permissions and
limitations under the License.
Примечание . Это программное обеспечение зависит от других пакетов, которые могут быть лицензированы по различным лицензиям с открытым исходным кодом.
Tesseract использует библиотеку Leptonica, в которой, по сути, используется лицензия BSD 2-CLAUSE.
Tesseract использует библиотеку Leptonica для открытия входных изображений (например, не документы, как PDF). Предполагается использовать лептонику со встроенной поддержкой Zlib, PNG и TIFF (для многоценного TIFF).
Для последней онлайн -версии readme.md см.
https://github.com/tesseract-ocr/tesseract/blob/main/readme.md