이 저장소에는 Tesseract.js에서 사용할 수 있는 다양한 .traineddata
세트가 포함되어 있습니다. 여기에는 기본적으로 Tesseract.js에서 사용되는 파일과 대체 버전이 포함됩니다. 파일의 내용과 Tesseract.js에서 파일을 사용하는 방법은 아래에 설명되어 있습니다.
각 파일 세트에 대한 설명은 다음과 같습니다. 소스도 나열되어 있지만 여기에 사용된 버전은 링크된 저장소에 있는 파일의 최신 버전을 반영하지 않을 수 있습니다.
4.0.0_best_int
- "Tessdata Best"의 정수 버전4.0.0
- "테스데이터"4.0.0-fast
- "Tessdata Fast"4.0.0_best
- "테스데이터 최고"3.0.2
- Tesseract v3의 기록 Tessdata 파일 각 언어에 대한 4.0.0
및 4.0.0_best_int
파일은 언어별 NPM 패키지에 게시됩니다. 각 언어에는 고유한 패키지가 있습니다. 단일 패키지로 결합하면 엄청난 다운로드가 발생하기 때문입니다. 패키지 이름은 @tesseract.js-data/{lang}
입니다. 예를 들어 영어 패키지 이름은 @tesseract.js-data/eng
입니다.
langPath
수동으로 설정하는 방법에 대한 지침은 Tesseract.js 설명서를 참조하세요. 이 저장소의 파일을 찾을 수 있는 위치에 대한 자세한 내용은 다음과 같습니다.
이러한 파일은 NPM을 자동으로 미러링하는 CDN을 사용하여 액세스할 수 있습니다. 인기 있는 예는 다음과 같습니다.
기본적으로 Tesseract.js는 JSDelivr CDN을 사용합니다. JSDelivr의 기본 영어 데이터에 대한 링크는 다음과 같습니다. https://cdn.jsdelivr.net/npm/@tesseract.js-data/[email protected]/4.0.0_best_int/eng.traineddata.gz
Unpkg는 NPM을 미러링하는 또 다른 CDN입니다. 대부분의 지역에서 unpkg는 JSDelivr보다 신뢰성이 약간 떨어지는 것으로 보입니다(여전히 사용 가능하긴 하지만). 그러나 사용자들은 JSDelivr이 차단된 중국 일부 지역에서 unpkg에 액세스할 수 있다고 보고했으므로 그러한 이유로 unpkg를 사용하십시오. 이 문제에 관한 토론과 JSDelivr에서 unkpg
로 전환하는 예제 코드는 여기에서 찾을 수 있습니다.
unkpkg의 기본 영어 데이터에 대한 링크는 다음과 같습니다. https://unpkg.com/@tesseract.js-data/eng/4.0.0_best_int/eng.traineddata.gz
사용자는 원격 CDN에 의존하지 않고 이러한 파일의 자체 로컬 복사본을 자유롭게 사용할 수 있습니다. Node.js의 경우 관련 NPM 패키지를 종속성으로 추가하거나 파일을 다운로드하여 프로젝트 리소스로 포함할 수 있습니다. 브라우저 버전의 경우 관련 파일을 다운로드하고 웹사이트에 직접 호스팅하면 됩니다.
tessdata.projectnaptha.com
사이트는 가치가 하락되어 더 이상 업데이트되지 않습니다. 이 사이트에 새 코드를 지정하지 마십시오.
이전 버전의 Tesseract.js에서 기본 langPath
위치는 이 저장소를 호스팅하는 간단한 GitHub 페이지 사이트였습니다. 그러나 GitHub 페이지가 신뢰할 수 없다고 보고하는 사용자 외에도 이 저장소는 이제 GitHub 페이지 크기 제한을 초과했습니다. 따라서 해당 사이트는 더 이상 업데이트되지 않습니다. 오래된 코드가 손상되는 것을 방지하기 위해 사이트는 그대로 유지되지만 개발자는 전환하는 것이 좋습니다.