Este repositorio contiene varios conjuntos de .traineddata
que Tesseract.js puede utilizar. Esto incluye los archivos utilizados por Tesseract.js de forma predeterminada, así como versiones alternativas. El contenido de los archivos y cómo usarlos con Tesseract.js se explica a continuación.
A continuación se incluye una descripción de cada conjunto de archivos. La fuente también aparece, aunque la versión utilizada aquí puede no reflejar la última versión de los archivos en el repositorio vinculado.
4.0.0_best_int
- Versión entera de "Tessdata Best"4.0.0
- "Tessdata"4.0.0-fast
- "Tessdata rápido"4.0.0_best
- "Tessdata mejor"3.0.2
- Archivos históricos de Tessdata de Tesseract v3 Los archivos 4.0.0
y 4.0.0_best_int
para cada idioma se publican en un paquete NPM específico del idioma. Cada idioma tiene su propio paquete, ya que combinarlo en un solo paquete generaría una descarga enorme. Los paquetes se denominan @tesseract.js-data/{lang}
. Por ejemplo, el paquete en inglés se llama @tesseract.js-data/eng
.
Consulte la documentación de Tesseract.js para obtener instrucciones sobre cómo configurar langPath
manualmente. Los detalles sobre dónde se pueden encontrar los archivos de este repositorio se encuentran a continuación.
Se puede acceder a estos archivos utilizando cualquier CDN que refleje automáticamente NPM. A continuación se muestran ejemplos populares.
De forma predeterminada, Tesseract.js utiliza la CDN JSDelivr. El enlace para los datos predeterminados en inglés en JSDelivr se encuentra a continuación. https://cdn.jsdelivr.net/npm/@tesseract.js-data/[email protected]/4.0.0_best_int/eng.traineddata.gz
Unpkg es otra CDN que refleja NPM. En la mayoría de las regiones, unpkg parece ser un poco menos confiable que JSDelivr (aunque aún se puede utilizar). Sin embargo, los usuarios han informado que se puede acceder a unpkg en partes de China donde JSDelivr está bloqueado, así que use unpkg por ese motivo. Aquí se puede encontrar una discusión sobre este problema, así como un código de ejemplo que cambia de JSDelivr a unkpg
.
El enlace para los datos predeterminados en inglés en unkpkg se encuentra a continuación. https://unpkg.com/@tesseract.js-data/eng/4.0.0_best_int/eng.traineddata.gz
Los usuarios son libres de utilizar su propia copia local de estos archivos en lugar de depender de una CDN remota. Para Node.js, simplemente puede agregar los paquetes NPM relevantes como una dependencia o descargar el archivo e incluirlo como recurso del proyecto. Para la versión del navegador, simplemente descargue los archivos relevantes y alójelos usted mismo en su sitio web.
El sitio tessdata.projectnaptha.com
está depreciado y ya no se actualiza. No apunte código nuevo a este sitio.
En versiones anteriores de Tesseract.js, la ubicación predeterminada langPath
era un sitio de páginas de GitHub simple que alojaba este repositorio. Sin embargo, además de que los usuarios informaron que las páginas de GitHub no eran confiables, este repositorio ahora supera el límite de tamaño de las páginas de GitHub. Por lo tanto, ese sitio ya no se actualiza. El sitio se deja como está para evitar romper el código antiguo; sin embargo, se recomienda a los desarrolladores que lo cambien.