OCRMYPDF는 스캔 한 PDF 파일에 OCR 텍스트 레이어를 추가하여 검색하거나 복사 할 수 있습니다.
ocrmypdf # it's a scriptable command line program
-l eng+fra # it supports multiple languages
--rotate-pages # it can fix pages that are misrotated
--deskew # it can deskew crooked PDFs!
--title " My PDF " # it can change output metadata
--jobs 4 # it uses multiple cores by default
--output-type pdfa # it produces PDF/A by default
input_scanned.pdf # takes PDF input (or images)
output_searchable.pdf # produces validated PDF output
최신 변경 사항에 대한 자세한 내용은 릴리스 노트를 참조하십시오.
자세한 내용은 문서를 참조하십시오.
OCR PDF 파일에 대한 무료 명령 줄 도구를 검색했습니다. 많은 것을 발견했지만 그중 어느 것도 정말 만족스럽지 않았습니다.
... 그래서 나는 내 도구를 개발하기로 결정했습니다.
Linux, Windows, MacOS 및 FreeBSD가 지원됩니다. 도커 이미지도 X64와 ARM 모두에 사용할 수 있습니다.
운영 체제 | 명령을 설치하십시오 |
---|---|
데비안, 우분투 | apt install ocrmypdf |
Linux 용 Windows 하위 시스템 | apt install ocrmypdf |
페도라 | dnf install ocrmypdf |
마코스 (홈 브루) | brew install ocrmypdf |
MacOS (MacPorts) | port install ocrmypdf |
마코 (NIX) | nix-env -i ocrmypdf |
리눅스 브루 | brew install ocrmypdf |
freebsd | pkg install py-ocrmypdf |
우분투 스냅 | snap install ocrmypdf |
다른 사람들은 설치 단계에 대한 문서를 참조하십시오.
OCRMYPDF는 OCR에 TesserAct를 사용하며 언어 팩에 의존합니다. Linux 사용자의 경우 종종 언어 팩을 제공하는 패키지를 찾을 수 있습니다.
# Display a list of all Tesseract language packs
apt-cache search tesseract-ocr
# Debian/Ubuntu users
apt-get install tesseract-ocr-chi-sim # Example: Install Chinese Simplified language pack
# Arch Linux users
pacman -S tesseract-data-eng tesseract-data-deu # Example: Install the English and German language packs
# brew macOS users
brew install tesseract-lang
그런 다음 -l LANG
인수를 OCRMYPDF로 전달하여 검색 해야하는 언어에 대한 힌트를 줄 수 있습니다. 여러 언어를 요청할 수 있습니다.
OCRMYPDF는 TesserAct 4.1.1+를 지원합니다. PATH
환경 변수에서 먼저 찾은 버전을 자동으로 사용합니다. Windows에서 PATH
에 TesserAct 바이너리가 제공되지 않으면 Windows 레지스트리에 따라 설치된 가장 높은 버전 번호를 사용합니다.
OCRMYPDF가 설치되면 명령 구문 및 옵션을 설명하는 내장 도움말은 다음을 통해 액세스 할 수 있습니다.
ocrmypdf --help
우리의 문서는 문서 읽기에 제공됩니다.
GitHub 문제 페이지에 문제를보고하고 문제 템플릿을 따라 빠른 응답을 받으십시오.
# Add an OCR layer and convert to PDF/A
ocrmypdf input.pdf output.pdf
# Convert an image to single page PDF
ocrmypdf input.jpg output.pdf
# Add OCR to a file in place (only modifies file on success)
ocrmypdf myfile.pdf myfile.pdf
# OCR with non-English languages (look up your language's ISO 639-3 code)
ocrmypdf -l fra LeParisien.pdf LeParisien.pdf
# OCR multilingual documents
ocrmypdf -l eng+fra Bilingual-English-French.pdf Bilingual-English-French.pdf
# Deskew (straighten crooked pages)
ocrmypdf --deskew input.pdf output.pdf
더 많은 기능은 문서를 참조하십시오.
필수 파이썬 버전 외에도 OCRMYPDF는 Ghostscript 및 Tesseract OCR의 외부 프로그램 설치가 필요합니다. OCRMYPDF는 순수한 파이썬이며 Linux, MacOS, Windows 및 FreeBSD와 같은 거의 모든 것을 실행합니다.
OCRMYPDF는 회사와 사용자가 기능 개발 및 컨설팅 문의를 지원하기로 선택하지 않고 오늘날의 소프트웨어가 아닙니다. 기존 기능 세트를 확장하거나 OCRMYPDF를 더 큰 시스템에 통합하는지 여부에 관계없이 모든 문의 사항에 대해 기꺼이 논의하게되어 기쁩니다.
OCRMYPDF 소프트웨어는 Mozilla Public License 2.0 (MPL-2.0)에 따라 라이센스가 부여됩니다. 이 라이센스는 OCRMYPDF와 상업용 및 폐쇄 소스가 포함 된 다른 코드와 통합을 허용하지만 OCRMYPDF에 소스 수준 수정을 게시하도록 요청합니다.
OCRMYPDF의 일부 구성 요소에는 표준 SPDX 라이센스 식별자 또는 DEP5 저작권 및 라이센스 정보 파일로 표시된 다른 라이센스가 있습니다. 일반적으로 비 코어 코드는 MIT에 따라 라이센스가 부여되며 문서 및 테스트 파일은 Creative Commons ShareAlike 4.0 (CC-By-SA 4.0)에 따라 라이센스가 부여됩니다.
이 소프트웨어는 명시 적 또는 묵시적 보증이나 조건없이 "그대로"기준으로 배포됩니다.