tesseract Download - ดาวน์โหลดซอร์สโค้ด tesseract

tesseract

ซอร์สโค้ดอื่น ๆ

5.5.0

ดาวน์โหลด

Tesseract OCR

สารบัญ

Tesseract OCR
- เกี่ยวกับ
- ประวัติย่อ
- การติดตั้ง tesseract
- วิ่ง tesseract
- สำหรับนักพัฒนา
- สนับสนุน
- ใบอนุญาต
- การพึ่งพาอาศัยกัน
- readme เวอร์ชันล่าสุด

เกี่ยวกับ

แพ็คเกจนี้มี เอ็นจิ้น OCR - libtesseract และ โปรแกรมบรรทัดคำสั่ง - tesseract

Tesseract 4 เพิ่มเครื่องยนต์ OCR Neural Net (LSTM) ใหม่ซึ่งมุ่งเน้นไปที่การจดจำสาย แต่ยังคงรองรับเครื่องยนต์ OCR Tesseract OCR ของ Tesseract 3 ซึ่งทำงานโดยการจดจำรูปแบบตัวละคร ความเข้ากันได้กับ Tesseract 3 เปิดใช้งานโดยใช้โหมดเครื่องยนต์ OCR แบบดั้งเดิม (-OEM 0) นอกจากนี้ยังต้องการไฟล์ที่ผ่านการฝึกอบรม DATA ซึ่งรองรับเอ็นจิ้นดั้งเดิมเช่นไฟล์จากที่เก็บ TessData

Stefan Weil เป็นนักพัฒนานำในปัจจุบัน เรย์สมิ ธ เป็นนักพัฒนานำจนถึงปี 2561 ผู้ดูแลคือ Zdenko Podobny สำหรับรายชื่อผู้มีส่วนร่วมโปรดดูผู้เขียนและบันทึกของผู้มีส่วนร่วมของ GitHub

Tesseract มี การสนับสนุน Unicode (UTF-8) และสามารถ รับรู้ได้มากกว่า 100 ภาษา "นอกกรอบ"

Tesseract รองรับ รูปแบบภาพต่าง ๆ รวมถึง PNG, JPEG และ TIFF

Tesseract รองรับ รูปแบบเอาต์พุตที่หลากหลาย : ข้อความธรรมดา, HOCR (HTML), PDF, PDF แบบข้อความที่มองไม่เห็นเท่านั้น, TSV, Alto และหน้า

คุณควรทราบว่าในหลาย ๆ กรณีเพื่อให้ได้ผลลัพธ์ที่ดีกว่า OCR คุณจะต้อง ปรับปรุงคุณภาพของภาพ ที่คุณให้ Tesseract

โครงการนี้ ไม่รวมแอปพลิเคชัน GUI หากคุณต้องการโปรดดูเอกสารฉบับที่ 3

Tesseract สามารถได้รับการฝึกฝนให้รู้จักภาษาอื่น ๆ ดู Tesseract Training สำหรับข้อมูลเพิ่มเติม

ประวัติย่อ

Tesseract ได้รับการพัฒนาครั้งแรกที่ Hewlett-Packard Laboratories Bristol UK และที่ Hewlett-Packard Co, Greeley Colorado USA ระหว่างปี 1985 และ 1994 โดยมีการเปลี่ยนแปลงบางอย่างเกิดขึ้นในปี 1996 ไปยัง Windows และ C ++ Izing ในปี 1998 ในปี 2005 Tesseract เปิดโดย HP ตั้งแต่ปี 2549 ถึงพฤศจิกายน 2561 ได้รับการพัฒนาโดย Google

Major Version 5 เป็นเวอร์ชันที่เสถียรในปัจจุบันและเริ่มต้นด้วยการเปิดตัว 5.0.0 ในวันที่ 30 พฤศจิกายน 2021 รุ่นเล็กรุ่นใหม่และรุ่น Bugfix มีให้บริการจาก GitHub

ซอร์สโค้ดล่าสุดสามารถใช้ได้จากสาขาหลักบน GitHub ปัญหาแบบเปิดสามารถพบได้ในการติดตามปัญหาและเอกสารการวางแผน

ดู บันทึกย่อการเปิดตัว และ เปลี่ยนบันทึก สำหรับรายละเอียดเพิ่มเติมของรุ่น

การติดตั้ง tesseract

คุณสามารถติดตั้ง tesseract ผ่านแพ็คเกจไบนารีที่สร้างไว้ล่วงหน้าหรือสร้างจากแหล่งที่มา

ก่อนที่จะสร้าง Tesseract จากแหล่งที่มาโปรดตรวจสอบว่าระบบของคุณมีคอมไพเลอร์ซึ่งเป็นหนึ่งในคอมไพเลอร์ที่รองรับ

วิ่ง tesseract

การใช้บรรทัดคำสั่ง พื้นฐาน:

 tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับตัวเลือกบรรทัดคำสั่งต่างๆใช้ tesseract --help หรือ man tesseract

ตัวอย่างสามารถพบได้ในเอกสาร

สำหรับนักพัฒนา

นักพัฒนาสามารถใช้ libtesseract C หรือ C ++ API เพื่อสร้างแอปพลิเคชันของตนเอง หากคุณต้องการการเชื่อมโยงกับ libtesseract สำหรับภาษาการเขียนโปรแกรมอื่น ๆ โปรดดูส่วน wrapper ในเอกสารเสริม

เอกสารของ tesseract ที่สร้างขึ้นจากซอร์สโค้ดโดย doxygen สามารถพบได้ใน tesseract-ocr.github.io

สนับสนุน

ก่อนที่คุณจะส่งปัญหาโปรดตรวจสอบ แนวทางสำหรับที่เก็บนี้

สำหรับการสนับสนุนให้อ่านเอกสารก่อนโดยเฉพาะคำถามที่พบบ่อยเพื่อดูว่าปัญหาของคุณได้รับการแก้ไขหรือไม่ หากไม่ได้ค้นหาฟอรัมผู้ใช้ Tesseract ผู้พัฒนา Tesseract Forum และปัญหาที่ผ่านมาและหากคุณยังไม่พบสิ่งที่คุณต้องการขอการสนับสนุนในรายการจดหมาย

จดหมายทางไปรษณีย์:

Tesseract -COR - สำหรับผู้ใช้ Tesseract
Tesseract -Dev - สำหรับนักพัฒนา Tesseract

โปรดรายงานปัญหาสำหรับ ข้อผิดพลาด เท่านั้นไม่ใช่สำหรับการถามคำถาม

ใบอนุญาต

 The code in this repository is licensed under the Apache License, Version 2.0 (the "License");
you may not use this file except in compliance with the License.
You may obtain a copy of the License at

   http://www.apache.org/licenses/LICENSE-2.0

Unless required by applicable law or agreed to in writing, software
distributed under the License is distributed on an "AS IS" BASIS,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
See the License for the specific language governing permissions and
limitations under the License.

หมายเหตุ : ซอฟต์แวร์นี้ขึ้นอยู่กับแพ็คเกจอื่น ๆ ที่อาจได้รับอนุญาตภายใต้ใบอนุญาตโอเพนซอร์สที่แตกต่างกัน

Tesseract ใช้ Liptonica Library ซึ่งใช้ใบอนุญาต BSD 2-Clause เป็นหลัก

การพึ่งพาอาศัยกัน

Tesseract ใช้ไลบรารี leptonica สำหรับการเปิดรูปภาพอินพุต (เช่นเอกสารเช่น PDF) ขอแนะนำให้ใช้ leptonica ด้วยการสนับสนุนในตัวสำหรับ zlib, png และ tiff (สำหรับ multippage tiff)