Ce dépôt contient divers ensembles de .traineddata
qui peuvent être utilisés par Tesseract.js. Cela inclut les fichiers utilisés par Tesseract.js par défaut, ainsi que les versions alternatives. Le contenu des fichiers et comment les utiliser avec Tesseract.js est expliqué ci-dessous.
Une description de chaque ensemble de fichiers est ci-dessous. La source est également répertoriée, bien que la version utilisée ici puisse ne pas refléter la dernière version des fichiers du dépôt lié.
4.0.0_best_int
- Version intégrée de "Tessdata Best"4.0.0
- "Tessdonnées"4.0.0-fast
- "Tessdata rapide"4.0.0_best
- "Tessdata Meilleur"3.0.2
- Fichiers Tessdata historiques de Tesseract v3 Les fichiers 4.0.0
et 4.0.0_best_int
pour chaque langue sont publiés dans un package NPM spécifique à la langue. Chaque langue possède son propre package, car la combinaison en un seul package entraînerait un énorme téléchargement. Les packages sont nommés @tesseract.js-data/{lang}
. Par exemple, le package anglais s'appelle @tesseract.js-data/eng
.
Consultez la documentation Tesseract.js pour obtenir des instructions sur la façon de définir langPath
manuellement. Les détails concernant l’endroit où les fichiers de ce référentiel peuvent être trouvés sont ci-dessous.
Ces fichiers sont accessibles à l'aide de n'importe quel CDN qui reflète automatiquement NPM. Des exemples populaires sont ci-dessous.
Par défaut, Tesseract.js utilise le CDN JSDelivr. Le lien pour les données anglaises par défaut sur JSDelivr est ci-dessous. https://cdn.jsdelivr.net/npm/@tesseract.js-data/[email protected]/4.0.0_best_int/eng.traineddata.gz
Unpkg est un autre CDN qui reflète NPM. Dans la plupart des régions, unpkg semble être légèrement moins fiable que JSDelivr (bien que toujours utilisable). Cependant, les utilisateurs ont signalé que unpkg est accessible dans certaines régions de Chine où JSDelivr est bloqué, utilisez donc unpkg pour cette raison. Une discussion concernant ce problème, ainsi qu'un exemple de code qui passe de JSDelivr à unkpg
, peuvent être trouvés ici.
Le lien pour les données anglaises par défaut sur unkpkg est ci-dessous. https://unpkg.com/@tesseract.js-data/eng/4.0.0_best_int/eng.traineddata.gz
Les utilisateurs sont libres d'utiliser leur propre copie locale de ces fichiers plutôt que de s'appuyer sur un CDN distant. Pour Node.js, vous pouvez simplement ajouter les packages NPM pertinents en tant que dépendance, ou télécharger le fichier et l'inclure en tant que ressource de projet. Pour la version navigateur, téléchargez simplement les fichiers pertinents et hébergez-les vous-même sur votre site Web.
Le site tessdata.projectnaptha.com
est déprécié, et n'est plus mis à jour. Ne pointez pas de nouveau code vers ce site.
Dans les anciennes versions de Tesseract.js, l'emplacement langPath
par défaut était un simple site de pages GitHub qui hébergeait ce référentiel. Cependant, en plus des utilisateurs signalant que les pages GitHub n'étaient pas fiables, ce référentiel dépasse désormais la limite de taille des pages GitHub. Ce site n'est donc plus mis à jour. Le site est laissé tel quel pour éviter de casser l'ancien code, mais les développeurs sont encouragés à changer.