Este repositório contém vários conjuntos de .traineddata
que podem ser usados pelo Tesseract.js. Isso inclui os arquivos usados pelo Tesseract.js por padrão, bem como versões alternativas. O conteúdo dos arquivos e como usá-los com Tesseract.js são explicados abaixo.
Uma descrição de cada conjunto de arquivos está abaixo. A fonte também está listada, embora a versão usada aqui possa não refletir a versão mais recente dos arquivos no repositório vinculado.
4.0.0_best_int
- Versão Integrada de "Tessdata Best"4.0.0
- "Tessdata"4.0.0-fast
- "Tessdata Rápido"4.0.0_best
- "Tessdata Melhor"3.0.2
- Arquivos históricos Tessdata do Tesseract v3 Os arquivos 4.0.0
e 4.0.0_best_int
para cada idioma são publicados em um pacote NPM específico do idioma. Cada idioma tem seu próprio pacote, pois combiná-lo em um único pacote levaria a um download enorme. Os pacotes são denominados @tesseract.js-data/{lang}
. Por exemplo, o pacote em inglês é denominado @tesseract.js-data/eng
.
Consulte a documentação do Tesseract.js para obter instruções sobre como definir langPath
manualmente. Detalhes sobre onde os arquivos neste repositório podem ser encontrados estão abaixo.
Esses arquivos podem ser acessados usando qualquer CDN que espelhe automaticamente o NPM. Exemplos populares estão abaixo.
Por padrão, Tesseract.js usa o CDN JSDelivr. O link para os dados padrão em inglês no JSDelivr está abaixo. https://cdn.jsdelivr.net/npm/@tesseract.js-data/[email protected]/4.0.0_best_int/eng.traineddata.gz
Unpkg é outro CDN que espelha o NPM. Na maioria das regiões, o unpkg parece ser um pouco menos confiável que o JSDelivr (embora ainda possa ser usado). No entanto, os usuários relataram que o unpkg está acessível em partes da China onde o JSDelivr está bloqueado, então use o unpkg por esse motivo. A discussão sobre esse problema, bem como o código de exemplo que muda de JSDelivr para unkpg
, pode ser encontrado aqui.
O link para os dados padrão em inglês no unkpkg está abaixo. https://unpkg.com/@tesseract.js-data/eng/4.0.0_best_int/eng.traineddata.gz
Os usuários são livres para usar sua própria cópia local desses arquivos, em vez de depender de um CDN remoto. Para Node.js, você pode simplesmente adicionar os pacotes NPM relevantes como uma dependência ou baixar o arquivo e incluí-lo como um recurso do projeto. Para a versão do navegador, basta baixar os arquivos relevantes e hospedá-los você mesmo em seu site.
O site tessdata.projectnaptha.com
está obsoleto e não é mais atualizado. Não aponte novo código para este site.
Nas versões antigas do Tesseract.js, o local langPath
padrão era um site simples de páginas do GitHub que hospedava este repositório. No entanto, além dos usuários relatarem que as páginas do GitHub não eram confiáveis, este repositório agora ultrapassou o limite de tamanho das páginas do GitHub. Portanto, esse site não é mais atualizado. O site está sendo deixado como está para evitar a quebra de código antigo, mas os desenvolvedores são incentivados a mudar.