Dieses Repo enthält verschiedene Sätze von .traineddata
, die von Tesseract.js verwendet werden können. Dazu gehören die von Tesseract.js standardmäßig verwendeten Dateien sowie alternative Versionen. Der Inhalt der Dateien und ihre Verwendung mit Tesseract.js werden im Folgenden erläutert.
Nachfolgend finden Sie eine Beschreibung jedes Dateisatzes. Die Quelle wird ebenfalls aufgeführt, obwohl die hier verwendete Version möglicherweise nicht die neueste Version der Dateien im verlinkten Repo widerspiegelt.
4.0.0_best_int
– Integerisierte Version von „Tessdata Best“4.0.0
– „Tessdata“4.0.0-fast
– „Tessdata Fast“4.0.0_best
– „Tessdata Best“3.0.2
– Historische Tessdata-Dateien von Tesseract v3 Die Dateien 4.0.0
und 4.0.0_best_int
für jede Sprache werden in einem sprachspezifischen NPM-Paket veröffentlicht. Jede Sprache hat ihr eigenes Paket, da die Kombination in einem einzigen Paket zu einem enormen Download führen würde. Die Pakete heißen @tesseract.js-data/{lang}
. Das englische Paket heißt beispielsweise @tesseract.js-data/eng
.
Anweisungen zum manuellen Festlegen langPath
finden Sie in der Tesseract.js-Dokumentation. Einzelheiten dazu, wo die Dateien in diesem Repo zu finden sind, finden Sie unten.
Auf diese Dateien kann über jedes CDN zugegriffen werden, das NPM automatisch spiegelt. Beliebte Beispiele finden Sie unten.
Standardmäßig verwendet Tesseract.js das JSDelivr CDN. Der Link für die standardmäßigen englischen Daten auf JSDelivr ist unten. https://cdn.jsdelivr.net/npm/@tesseract.js-data/[email protected]/4.0.0_best_int/eng.traineddata.gz
Unpkg ist ein weiteres CDN, das NPM spiegelt. In den meisten Regionen scheint unpkg etwas weniger zuverlässig zu sein als JSDelivr (obwohl es immer noch verwendbar ist). Benutzer haben jedoch berichtet, dass unpkg in Teilen Chinas zugänglich ist, in denen JSDelivr blockiert ist. Verwenden Sie daher unpkg. Eine Diskussion zu diesem Problem sowie Beispielcode, der von JSDelivr zu unkpg
wechselt, finden Sie hier.
Der Link für die standardmäßigen englischen Daten auf unkpkg ist unten. https://unpkg.com/@tesseract.js-data/eng/4.0.0_best_int/eng.traineddata.gz
Benutzern steht es frei, ihre eigene lokale Kopie dieser Dateien zu verwenden, anstatt sich auf ein Remote-CDN zu verlassen. Für Node.js können Sie einfach die relevanten NPM-Pakete als Abhängigkeit hinzufügen oder die Datei herunterladen und als Projektressource einbinden. Für die Browserversion laden Sie einfach die entsprechenden Dateien herunter und hosten sie selbst auf Ihrer Website.
Die Website tessdata.projectnaptha.com
ist veraltet und wird nicht mehr aktualisiert. Verweisen Sie keinen neuen Code auf diese Site.
In alten Versionen von Tesseract.js war der standardmäßige langPath
Speicherort eine einfache GitHub-Seiten-Site, die dieses Repo gehostet hat. Allerdings haben Benutzer nicht nur berichtet, dass GitHub-Seiten unzuverlässig seien, sondern dieses Repo liegt nun auch über der Größenbeschränkung für GitHub-Seiten. Daher wird diese Website nicht mehr aktualisiert. Die Website bleibt unverändert, um zu verhindern, dass alter Code beschädigt wird. Entwicklern wird jedoch empfohlen, zu wechseln.