Paket ini berisi mesin OCR - libtesseract
dan program baris perintah - tesseract
.
Tesseract 4 menambahkan mesin OCR berbasis neural net (LSTM) baru yang difokuskan pada pengenalan garis, tetapi juga masih mendukung mesin OCR Tesseract Legacy Tesseract 3 yang bekerja dengan mengenali pola karakter. Kompatibilitas dengan Tesseract 3 diaktifkan dengan menggunakan mode mesin OCR Legacy (--OEM 0). Ini juga membutuhkan file terlatih yang mendukung mesin warisan, misalnya yang dari repositori Tessdata.
Stefan Weil adalah pengembang utama saat ini. Ray Smith adalah pengembang utama hingga 2018. Pemelihara adalah Zdenko Podobny. Untuk daftar kontributor, lihat penulis dan log kontributor GitHub.
Tesseract memiliki dukungan Unicode (UTF-8) , dan dapat mengenali lebih dari 100 bahasa "di luar kotak".
Tesseract mendukung berbagai format gambar termasuk PNG, JPEG dan TIFF.
Tesseract mendukung berbagai format output : teks biasa, HOCR (HTML), PDF, PDF, TSV, Alto, dan Page yang tidak terlihat-teks.
Anda harus mencatat bahwa dalam banyak kasus, untuk mendapatkan hasil OCR yang lebih baik, Anda harus meningkatkan kualitas gambar yang Anda berikan kepada Tesseract.
Proyek ini tidak termasuk aplikasi GUI . Jika Anda membutuhkannya, silakan lihat dokumentasi 3RDParty.
Tesseract dapat dilatih untuk mengenali bahasa lain . Lihat Pelatihan Tesseract untuk informasi lebih lanjut.
Tesseract awalnya dikembangkan di Hewlett-Packard Laboratories Bristol UK dan di Hewlett-Packard Co, Greeley Colorado USA antara tahun 1985 dan 1994, dengan beberapa perubahan lagi yang dibuat pada tahun 1996 ke port ke Windows, dan beberapa C ++ Izing pada tahun 1998. Pada tahun 2005 Tesseract Tesseract bersumber terbuka oleh HP. Dari tahun 2006 hingga November 2018 dikembangkan oleh Google.
Versi utama 5 adalah versi stabil saat ini dan dimulai dengan rilis 5.0.0 pada 30 November 2021. Versi minor yang lebih baru dan versi Bugfix tersedia dari GitHub.
Kode sumber terbaru tersedia dari Cabang Utama di GitHub. Masalah terbuka dapat ditemukan di pelacak edisi, dan dokumentasi perencanaan.
Lihat catatan rilis dan ubah log untuk detail lebih lanjut dari rilis.
Anda dapat menginstal Tesseract melalui paket biner pra-dibangun atau membangunnya dari sumber.
Sebelum membangun tesseract dari sumber, silakan periksa apakah sistem Anda memiliki kompiler yang merupakan salah satu kompiler yang didukung.
Penggunaan Baris Perintah Dasar:
tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]
Untuk informasi lebih lanjut tentang berbagai opsi baris perintah, gunakan tesseract --help
atau man tesseract
.
Contoh dapat ditemukan dalam dokumentasi.
Pengembang dapat menggunakan libtesseract
C atau C ++ API untuk membangun aplikasi mereka sendiri. Jika Anda memerlukan binding ke libtesseract
untuk bahasa pemrograman lainnya, silakan lihat bagian pembungkus dalam dokumentasi Addons.
Dokumentasi tesseract yang dihasilkan dari kode sumber oleh doxygen dapat ditemukan di tesseract-ocr.github.io.
Sebelum Anda mengirimkan masalah, silakan tinjau pedoman untuk repositori ini .
Untuk dukungan, pertama -tama baca dokumentasi, terutama FAQ untuk melihat apakah masalah Anda ditangani di sana. Jika tidak, cari Forum Pengguna Tesseract, Forum Pengembang Tesseract dan masalah masa lalu, dan jika Anda masih tidak dapat menemukan apa yang Anda butuhkan, minta dukungan dalam daftar surat.
Daftar surat:
Harap laporkan masalah hanya untuk bug , bukan untuk mengajukan pertanyaan.
The code in this repository is licensed under the Apache License, Version 2.0 (the "License");
you may not use this file except in compliance with the License.
You may obtain a copy of the License at
http://www.apache.org/licenses/LICENSE-2.0
Unless required by applicable law or agreed to in writing, software
distributed under the License is distributed on an "AS IS" BASIS,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
See the License for the specific language governing permissions and
limitations under the License.
Catatan : Perangkat lunak ini tergantung pada paket lain yang mungkin dilisensikan di bawah lisensi sumber terbuka yang berbeda.
Tesseract menggunakan Leptonica Library yang pada dasarnya menggunakan lisensi BSD 2-Clause.
Tesseract menggunakan perpustakaan Leptonica untuk membuka gambar input (misalnya bukan dokumen seperti PDF). Disarankan untuk menggunakan Leptonica dengan dukungan bawaan untuk Zlib, PNG dan TIFF (untuk Tiff Multipage).
Untuk versi online terbaru dari readme.md lihat:
https://github.com/tesseract-ocok/tesseract/blob/main/readme.md