Repo ini berisi berbagai kumpulan .traineddata
yang dapat digunakan oleh Tesseract.js. Ini termasuk file yang digunakan oleh Tesseract.js secara default, serta versi alternatif. Isi file dan cara menggunakannya dengan Tesseract.js dijelaskan di bawah.
Deskripsi setiap kumpulan file ada di bawah. Sumbernya juga dicantumkan, meskipun versi yang digunakan di sini mungkin tidak mencerminkan versi terbaru dari file di repo yang ditautkan.
4.0.0_best_int
- Versi Terpadu "Tessdata Best"4.0.0
- "Data Tes"4.0.0-fast
- "Tessdata Cepat"4.0.0_best
- "Tessdata Terbaik"3.0.2
- File Tessdata bersejarah dari Tesseract v3 File 4.0.0
dan 4.0.0_best_int
untuk setiap bahasa diterbitkan dalam paket NPM khusus bahasa. Setiap bahasa memiliki paketnya sendiri karena menggabungkannya ke dalam satu paket akan menghasilkan unduhan yang sangat besar. Paket tersebut diberi nama @tesseract.js-data/{lang}
. Misalnya, paket bahasa Inggris bernama @tesseract.js-data/eng
.
Lihat dokumentasi Tesseract.js untuk petunjuk tentang cara mengatur langPath
secara manual. Detail mengenai di mana file dalam repo ini dapat ditemukan ada di bawah.
File-file ini dapat diakses menggunakan CDN apa pun yang secara otomatis mencerminkan NPM. Contoh populer ada di bawah.
Secara default, Tesseract.js menggunakan CDN JSDelivr. Tautan untuk data bahasa Inggris default di JSDelivr ada di bawah. https://cdn.jsdelivr.net/npm/@tesseract.js-data/[email protected]/4.0.0_best_int/eng.traineddata.gz
Unpkg adalah CDN lain yang mencerminkan NPM. Di sebagian besar wilayah, unpkg tampaknya kurang dapat diandalkan dibandingkan JSDelivr (walaupun masih dapat digunakan). Namun, pengguna telah melaporkan bahwa unpkg dapat diakses di beberapa bagian Tiongkok di mana JSDelivr diblokir, jadi gunakan unpkg untuk alasan tersebut. Diskusi mengenai masalah ini, serta contoh kode yang beralih dari JSDelivr ke unkpg
, dapat ditemukan di sini.
Tautan untuk data default bahasa Inggris di unkpkg ada di bawah. https://unpkg.com/@tesseract.js-data/eng/4.0.0_best_int/eng.traineddata.gz
Pengguna bebas menggunakan salinan lokal file-file ini daripada mengandalkan CDN jarak jauh. Untuk Node.js, Anda cukup menambahkan paket NPM yang relevan sebagai dependensi, atau mendownload file dan memasukkannya sebagai sumber daya proyek. Untuk versi browser, cukup unduh file yang relevan dan host sendiri di situs web Anda.
Situs tessdata.projectnaptha.com
tidak lagi disusutkan dan tidak diperbarui lagi. Jangan arahkan kode baru ke situs ini.
Di Tesseract.js versi lama, lokasi langPath
default adalah situs halaman GitHub sederhana yang menghosting repo ini. Namun, selain pengguna yang melaporkan bahwa halaman GitHub tidak dapat diandalkan, repo ini kini melebihi batas ukuran halaman GitHub. Oleh karena itu, situs tersebut tidak lagi diperbarui. Situs ini dibiarkan apa adanya untuk menghindari kerusakan kode lama, namun pengembang didorong untuk beralih.