Этот репозиторий содержит различные наборы .traineddata
, которые может использовать Tesseract.js. Сюда входят файлы, используемые Tesseract.js по умолчанию, а также альтернативные версии. Содержимое файлов и способы их использования с Tesseract.js описаны ниже.
Описание каждого набора файлов приведено ниже. Источник также указан, хотя используемая здесь версия может не отражать последнюю версию файлов в связанном репозитории.
4.0.0_best_int
— Интегрированная версия «Tessdata Best»4.0.0
- "Тессдата"4.0.0-fast
- «Тессдата Фаст»4.0.0_best
— «Лучший Tessdata»3.0.2
— Исторические файлы Tessdata из Tesseract v3. Файлы 4.0.0
и 4.0.0_best_int
для каждого языка публикуются в пакете NPM для конкретного языка. Для каждого языка имеется свой собственный пакет, поскольку объединение в один пакет приведет к огромной загрузке. Пакеты называются @tesseract.js-data/{lang}
. Например, пакет на английском языке называется @tesseract.js-data/eng
.
Инструкции по настройке langPath
вручную см. в документации Tesseract.js. Подробности о том, где можно найти файлы в этом репозитории, приведены ниже.
Доступ к этим файлам можно получить с помощью любого CDN, который автоматически зеркалирует NPM. Популярные примеры приведены ниже.
По умолчанию Tesseract.js использует CDN JSDelivr. Ссылка на данные по умолчанию на английском языке в JSDelivr приведена ниже. https://cdn.jsdelivr.net/npm/@tesseract.js-data/[email protected]/4.0.0_best_int/eng.traineddata.gz
Unpkg — это еще один CDN, отражающий NPM. В большинстве регионов unpkg кажется немного менее надежным, чем JSDelivr (хотя его все еще можно использовать). Однако пользователи сообщают, что unpkg доступен в тех частях Китая, где заблокирован JSDelivr, поэтому используйте unpkg по этой причине. Обсуждение этой проблемы, а также пример кода переключения с JSDelivr на unkpg
можно найти здесь.
Ссылка на данные по умолчанию на английском языке в unkpkg приведена ниже. https://unpkg.com/@tesseract.js-data/eng/4.0.0_best_int/eng.traineddata.gz
Пользователи могут использовать свою собственную локальную копию этих файлов, а не полагаться на удаленный CDN. Для Node.js вы можете просто добавить соответствующие пакеты NPM в качестве зависимости или загрузить файл и включить его в качестве ресурса проекта. Для версии для браузера просто загрузите соответствующие файлы и разместите их на своем веб-сайте.
Сайт tessdata.projectnaptha.com
устарел и больше не обновляется. Не указывайте новый код на этом сайте.
В старых версиях Tesseract.js расположением langPath
по умолчанию был простой сайт страниц GitHub, на котором размещался этот репозиторий. Однако помимо сообщений пользователей о ненадежности страниц GitHub, размер этого репозитория теперь превышает ограничение на размер страниц GitHub. Поэтому этот сайт больше не обновляется. Сайт оставлен как есть, чтобы избежать взлома старого кода, однако разработчикам рекомендуется перейти на него.