Ce package contient un moteur OCR - libtesseract
et un programme de ligne de commande - tesseract
.
Tesseract 4 ajoute un nouveau moteur OCR basé sur Net Net (LSTM) qui se concentre sur la reconnaissance de ligne, mais prend également en charge le moteur OCR Tesseract Legacy de Tesseract 3 qui fonctionne en reconnaissant les modèles de caractère. La compatibilité avec Tesseract 3 est activée en utilisant le mode moteur OCR Legacy (--oem 0). Il a également besoin de fichiers formésdata qui prennent en charge le moteur hérité, par exemple ceux du référentiel TessData.
Stefan Weil est le développeur principal actuel. Ray Smith était le développeur principal jusqu'en 2018. Le mainteneur est Zdenko Podobny. Pour une liste de contributeurs, voir les auteurs et le journal des contributeurs de GitHub.
Tesseract a un support Unicode (UTF-8) et peut reconnaître plus de 100 langues "hors de la boîte".
Tesseract prend en charge divers formats d'image, notamment PNG, JPEG et TIFF.
Tesseract prend en charge divers formats de sortie : Texte brut, Hocr (HTML), PDF, PDF, TSV, Alto et Page invisible-texte uniquement.
Vous devez noter que dans de nombreux cas, afin d'obtenir de meilleurs résultats OCR, vous devrez améliorer la qualité de l'image que vous donnez à Tesseract.
Ce projet n'inclut pas de demande d'interface graphique . Si vous en avez besoin, veuillez consulter la documentation de la 3e.
Tesseract peut être formé pour reconnaître d'autres langues . Voir la formation Tesseract pour plus d'informations.
Tesseract a été initialement développé au Hewlett-Packard Laboratories Bristol UK et à Hewlett-Packard Co, Greeley Colorado USA entre 1985 et 1994, avec quelques changements supplémentaires apportés en 1996 à Port to Windows, et un peu de C ++ en 1998. En 2005 Tesseract était ouvert par HP. De 2006 à novembre 2018, il a été développé par Google.
La version 5 majeure est la version stable actuelle et a commencé avec la version 5.0.0 le 30 novembre 2021. Des versions mineures plus récentes et des versions Bugfix sont disponibles auprès de GitHub.
Le dernier code source est disponible auprès de la branche principale sur GitHub. Les problèmes ouverts peuvent être trouvés dans le tracker des problèmes et la documentation de planification.
Voir les notes de publication et le journal de modification pour plus de détails sur les versions.
Vous pouvez soit installer Tesseract via un package binaire pré-construit ou le construire à partir de la source.
Avant de construire Tesseract de Source, veuillez vérifier que votre système dispose d'un compilateur qui est l'un des compilateurs pris en charge.
Utilisation de la ligne de commande de base:
tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]
Pour plus d'informations sur les différentes options de ligne de commande, utilisez tesseract --help
ou man tesseract
.
Des exemples peuvent être trouvés dans la documentation.
Les développeurs peuvent utiliser l'API libtesseract
C ou C ++ pour créer leur propre application. Si vous avez besoin de liaisons à libtesseract
pour d'autres langages de programmation, veuillez consulter la section Wrapper dans la documentation des addons.
La documentation de Tesseract générée à partir du code source par Doxygen peut être trouvée sur Tesseract-ocr.github.io.
Avant de soumettre un problème, veuillez consulter les directives de ce référentiel .
Pour le soutien, lisez d'abord la documentation, en particulier la FAQ pour voir si votre problème y est résolu. Sinon, recherchez le forum utilisateur Tesseract, le forum du développeur Tesseract et les problèmes passés, et si vous ne trouvez toujours pas ce dont vous avez besoin, demandez un soutien dans les listes de diffusion.
Listes de diffusion:
Veuillez signaler un problème uniquement pour un bogue , pas pour poser des questions.
The code in this repository is licensed under the Apache License, Version 2.0 (the "License");
you may not use this file except in compliance with the License.
You may obtain a copy of the License at
http://www.apache.org/licenses/LICENSE-2.0
Unless required by applicable law or agreed to in writing, software
distributed under the License is distributed on an "AS IS" BASIS,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
See the License for the specific language governing permissions and
limitations under the License.
Remarque : Ce logiciel dépend des autres packages qui peuvent être sous licence différentes licences open source.
Tesseract utilise la bibliothèque Leptonica qui utilise essentiellement une licence BSD 2 clause.
Tesseract utilise la bibliothèque Leptonica pour ouvrir des images d'entrée (par exemple, pas des documents comme PDF). Il est suggéré d'utiliser Leptonica avec un support intégré pour ZLIB, PNG et TIFF (pour le TIFF multipage).
Pour la dernière version en ligne du Readme.md Voir:
https://github.com/tesseract-ocr/tesseract/blob/main/readme.md