Dieses Paket enthält eine OCR -Engine - libtesseract
und ein Befehlszeilenprogramm - tesseract
.
Tesseract 4 fügt eine neue OCR -Motor mit neuronalem Netz (LSTM) auf, die auf die Anerkennung von Line fokussiert ist, unterstützt aber auch den älteren Tesseract -OCR -Motor von Tesseract 3, der durch Erkennung von Charaktemustern funktioniert. Die Kompatibilität mit Tesseract 3 wird durch die Verwendung des älteren OCR-Motormodus (-OEM 0) aktiviert. Es benötigt auch trainierte Dateien, die die Legacy Engine unterstützen, beispielsweise die aus dem Tessdata -Repository.
Stefan Weil ist der derzeitige Hauptentwickler. Ray Smith war bis 2018 der Hauptentwickler. Der Betreuer ist Zdenko Podobny. Für eine Liste von Mitwirkenden siehe Autoren und Githubs Protokoll der Mitwirkenden.
Tesseract hat die Unterstützung von Unicode (UTF-8) und kann mehr als 100 Sprachen "aus der Box" erkennen .
Tesseract unterstützt verschiedene Bildformate, einschließlich PNG, JPEG und TIFF.
Tesseract unterstützt verschiedene Ausgangsformate : Plain Text, HOCR (HTML), PDF, PDF, TSV, Alt und Page im unsichtbaren Text.
Sie sollten beachten, dass Sie in vielen Fällen, um bessere OCR -Ergebnisse zu erzielen, die Qualität des Bildes verbessern müssen, das Sie Tesseract geben.
Dieses Projekt enthält keine GUI -Anwendung . Wenn Sie einen benötigen, finden Sie in der Dokumentation der 3. Party.
Tesseract kann geschult werden, um andere Sprachen zu erkennen . Weitere Informationen finden Sie in Tesseract Training.
Tesseract wurde ursprünglich bei Hewlett-Packard Laboratories Bristol UK und bei Hewlett-Packard Co, Greeley Colorado USA zwischen 1985 und 1994 entwickelt, wobei 1996 weitere Änderungen vorgenommen wurden. wurde von HP offen bezogen. Von 2006 bis November 2018 wurde es von Google entwickelt.
Major Version 5 ist die aktuelle stabile Version und begann mit Release 5.0.0 am 30. November 2021. Neuere Minor -Versionen und Bugfix -Versionen sind bei GitHub erhältlich.
Der neueste Quellcode ist bei Main Branch in GitHub erhältlich. Offene Ausgaben finden Sie in Themen Tracker und Planungsdokumentation.
Weitere Informationen zu den Veröffentlichungen finden Sie unter Veröffentlichungsnotizen und ändern Sie das Protokoll .
Sie können Tesseract entweder über ein vorgefertigtes Binärpaket installieren oder aus der Quelle erstellen.
Bevor Sie Tesseract aus der Quelle erstellen, überprüfen Sie bitte, ob Ihr System einen Compiler hat, der einer der unterstützten Compiler ist.
Grundlegende Befehlszeilennutzung :
tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]
Weitere Informationen zu den verschiedenen Befehlszeilenoptionen verwenden Sie tesseract --help
oder man tesseract
.
Beispiele finden Sie in der Dokumentation.
Entwickler können libtesseract
C oder C ++ API verwenden, um eine eigene Anwendung zu erstellen. Wenn Sie Bindungen an libtesseract
für andere Programmiersprachen benötigen, finden Sie im Abschnitt Wrapper in der Addons -Dokumentation.
Die Dokumentation von Tesseract, die aus dem Quellcode von Doxygen generiert wurde, finden Sie auf Tesseract-Ocr.github.io.
Bevor Sie ein Problem einreichen, überprüfen Sie bitte die Richtlinien für dieses Repository .
Lesen Sie zur Unterstützung zunächst die Dokumentation, insbesondere die FAQ, um festzustellen, ob Ihr Problem dort angesprochen wird. Wenn nicht, durchsuchen Sie das Tesseract User Forum, das Tesseract Developer-Forum und vergangene Probleme. Wenn Sie immer noch nicht finden, was Sie benötigen, bitten Sie um Unterstützung in den Mailinglisten.
Mailinglisten:
Bitte melden Sie ein Problem nur für einen Fehler , nicht für Fragen.
The code in this repository is licensed under the Apache License, Version 2.0 (the "License");
you may not use this file except in compliance with the License.
You may obtain a copy of the License at
http://www.apache.org/licenses/LICENSE-2.0
Unless required by applicable law or agreed to in writing, software
distributed under the License is distributed on an "AS IS" BASIS,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
See the License for the specific language governing permissions and
limitations under the License.
Hinweis : Diese Software hängt von anderen Paketen ab, die unter verschiedenen Open -Source -Lizenzen lizenziert werden können.
Tesseract verwendet die Leptonica-Bibliothek, die im Wesentlichen eine BSD 2-Clause-Lizenz verwendet.
Tesseract verwendet die Leptonica -Bibliothek zum Öffnen von Eingabebildern (z. B. keine Dokumente wie PDF). Es wird empfohlen, Leptonica mit integrierter Unterstützung für ZLIB, PNG und TIFF (für Multipage TIFF) zu verwenden.
Für die neueste Online -Version der Readme.md siehe:
https://github.com/tesseract-ocr/tesseract/blob/main/readme.md