تحتوي هذه الحزمة على محرك OCR - libtesseract
وبرنامج سطر الأوامر - tesseract
.
يضيف Tesseract 4 محركًا جديدًا لـ OCR Net Net (LSTM) والذي يركز على التعرف على الخط ، ولكنه لا يزال يدعم أيضًا محرك Tesseract OCR القديم لـ Tesseract 3 الذي يعمل عن طريق التعرف على أنماط الأحرف. يتم تمكين التوافق مع Tesseract 3 باستخدام وضع محرك OCR Legacy (-OEM 0). كما أنه يحتاج إلى ملفات TrainedData التي تدعم المحرك القديم ، على سبيل المثال تلك الموجودة في مستودع Tessdata.
ستيفان ويل هو المطور الرئيسي الحالي. كان راي سميث هو المطور الرئيسي حتى عام 2018. وصياغة هي Zdenko Podobny. للحصول على قائمة بالمساهمين ، انظر المؤلفين وسجل Github للمساهمين.
لدى Tesseract دعم Unicode (UTF-8) ، ويمكنه التعرف على أكثر من 100 لغة "خارج الصندوق".
يدعم Tesseract تنسيقات الصور المختلفة بما في ذلك PNG و JPEG و TIFF.
يدعم Tesseract تنسيقات الإخراج المختلفة : نص عادي ، HOCR (HTML) ، PDF ، PDF غير المرئي فقط ، TSV ، Alto و Page.
يجب أن تلاحظ أنه في كثير من الحالات ، من أجل الحصول على نتائج OCR أفضل ، ستحتاج إلى تحسين جودة الصورة التي تقدمها Tesseract.
لا يشمل هذا المشروع تطبيق واجهة المستخدم الرسومية . إذا كنت بحاجة إلى واحدة ، يرجى الاطلاع على وثائق الثالثة.
يمكن تدريب Tesseract على التعرف على اللغات الأخرى . انظر Tesseract Training لمزيد من المعلومات.
تم تطوير Tesseract في الأصل في Hewlett-Packard Laboratories Bristol UK و Hewlett-Packard Co ، Greeley Colorado USA بين عامي 1985 و 1994 ، مع بعض التغييرات الإضافية التي تم إجراؤها في عام 1996 إلى Windows ، وبعض C ++ izing في عام 1998. في عام 2005. كان مفتوحا من قبل HP. من عام 2006 حتى نوفمبر 2018 تم تطويره بواسطة Google.
الإصدار الرئيسي 5 هو الإصدار المستقر الحالي وبدأ مع الإصدار 5.0.0 في 30 نوفمبر 2021. تتوفر إصدارات صغيرة جديدة وإصدارات Bugfix من Github.
أحدث رمز المصدر متاح من الفرع الرئيسي على جيثب. يمكن العثور على المشكلات المفتوحة في تعقب المشكلات ، وتخطيط وثائق.
راجع ملاحظات الإصدار وتغيير السجل لمزيد من التفاصيل عن الإصدارات.
يمكنك إما تثبيت Tesseract عبر الحزمة الثنائية المدمجة مسبقًا أو إنشاءها من المصدر.
قبل بناء tesseract من المصدر ، يرجى التحقق من أن نظامك يحتوي على برنامج التحويل البرمجي الذي يعد أحد المترجمين المدعمين.
استخدام سطر الأوامر الأساسي:
tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]
لمزيد من المعلومات حول خيارات سطر الأوامر المختلفة ، استخدم tesseract --help
أو man tesseract
.
يمكن العثور على أمثلة في الوثائق.
يمكن للمطورين استخدام واجهة برمجة تطبيقات libtesseract
C أو C ++ لإنشاء تطبيقهم الخاص. إذا كنت بحاجة إلى روابط لـ libtesseract
للغات البرمجة الأخرى ، فيرجى الاطلاع على قسم Wrapper في وثائق Addons.
يمكن العثور على توثيق tesseract الذي تم إنشاؤه من رمز المصدر بواسطة doxygen على tesseract-ocr.github.io.
قبل تقديم مشكلة ، يرجى مراجعة الإرشادات لهذا المستودع .
للحصول على الدعم ، اقرأ أولاً الوثائق ، وخاصة الأسئلة الشائعة لمعرفة ما إذا كانت مشكلتك قد تمت معالجتها هناك. إذا لم يكن الأمر كذلك ، فابحث في منتدى مستخدم Tesseract ، ومنتدى Tesseract Developer والمشكلات السابقة ، وإذا كنت لا تزال لا تستطيع العثور على ما تحتاجه ، فاطلب الدعم في القوانين البريدية.
قوائم البريد:
يرجى الإبلاغ عن مشكلة فقط عن خطأ ، وليس لطرح الأسئلة.
The code in this repository is licensed under the Apache License, Version 2.0 (the "License");
you may not use this file except in compliance with the License.
You may obtain a copy of the License at
http://www.apache.org/licenses/LICENSE-2.0
Unless required by applicable law or agreed to in writing, software
distributed under the License is distributed on an "AS IS" BASIS,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
See the License for the specific language governing permissions and
limitations under the License.
ملاحظة : يعتمد هذا البرنامج على الحزم الأخرى التي قد تكون مرخصة بموجب تراخيص مفتوحة المصدر مختلفة.
يستخدم Tesseract مكتبة Leptonica التي تستخدم بشكل أساسي ترخيص BSD 2-Cause.
يستخدم Tesseract مكتبة Leptonica لفتح صور الإدخال (على سبيل المثال لا مستندات مثل PDF). يُقترح استخدام Leptonica بدعم مدمج لـ Zlib و PNG و TIFF (ل tiff multipage).
للحصول على أحدث إصدار عبر الإنترنت من README.MD راجع:
https://github.com/tesseract-ocr/tesseract/blob/main/readme.md