OCRmyPDF 다운로드 OCRmyPDF 소스 코드 다운로드

OCRmyPDF

기타 소스코드

v16.6.2

다운로드

OCRMYPDF는 스캔 한 PDF 파일에 OCR 텍스트 레이어를 추가하여 검색하거나 복사 할 수 있습니다.

ocrmypdf                      # it's a scriptable command line program
   -l eng+fra                 # it supports multiple languages
   --rotate-pages             # it can fix pages that are misrotated
   --deskew                   # it can deskew crooked PDFs!
   --title " My PDF "           # it can change output metadata
   --jobs 4                   # it uses multiple cores by default
   --output-type pdfa         # it produces PDF/A by default
   input_scanned.pdf          # takes PDF input (or images)
   output_searchable.pdf      # produces validated PDF output

최신 변경 사항에 대한 자세한 내용은 릴리스 노트를 참조하십시오.

주요 기능

일반 PDF에서 검색 가능한 PDF/A 파일을 생성합니다
복사 / 붙여 넣기를 완화하기 위해 이미지 아래에 OCR 텍스트를 정확하게 배치
원래 임베디드 이미지의 정확한 해상도를 유지합니다
가능하면 OCR 정보를 다른 콘텐츠를 방해하지 않고 "무손실"작업으로 삽입합니다.
PDF 이미지 최적화, 종종 입력 파일보다 작은 파일을 생성합니다.
요청이 있으면 OCR을 수행하기 전에 이미지를 deske 및/또는 정리합니다.
입력 및 출력 파일을 확인합니다
사용 가능한 모든 CPU 코어에 대한 작업을 배포합니다
TesserAct OCR 엔진을 사용하여 100 개가 넘는 언어를 인식합니다.
개인 데이터를 비공개로 유지합니다.
수천 페이지로 파일을 처리하기 위해 올바르게 스케일링합니다.
수백만 개의 PDF에서 전투 테스트.

자세한 내용은 문서를 참조하십시오.

동기 부여

OCR PDF 파일에 대한 무료 명령 줄 도구를 검색했습니다. 많은 것을 발견했지만 그중 어느 것도 정말 만족스럽지 않았습니다.

이미지 아래에서 잘못 배치 된 텍스트로 PDF 파일을 생성했습니다 (복사/붙여 넣기 불가능)
또는 그들은 악센트와 다국어 문자를 처리하지 않았습니다
또는 내장 이미지의 해상도를 변경했습니다
또는 엄청나게 큰 PDF 파일을 생성했습니다
또는 그들은 OCR을 시도 할 때 추락했습니다
또는 유효한 PDF 파일을 생성하지 않았습니다
게다가 그중 어느 누구도 PDF/A 파일을 생산하지 않았습니다 (오랜 시간 동안 스토리지 전용 형식)

... 그래서 나는 내 도구를 개발하기로 결정했습니다.

설치

Linux, Windows, MacOS 및 FreeBSD가 지원됩니다. 도커 이미지도 X64와 ARM 모두에 사용할 수 있습니다.

운영 체제	명령을 설치하십시오
데비안, 우분투	`apt install ocrmypdf`
Linux 용 Windows 하위 시스템	`apt install ocrmypdf`
페도라	`dnf install ocrmypdf`
마코스 (홈 브루)	`brew install ocrmypdf`
MacOS (MacPorts)	`port install ocrmypdf`
마코 (NIX)	`nix-env -i ocrmypdf`
리눅스 브루	`brew install ocrmypdf`
freebsd	`pkg install py-ocrmypdf`
우분투 스냅	`snap install ocrmypdf`

다른 사람들은 설치 단계에 대한 문서를 참조하십시오.

언어

OCRMYPDF는 OCR에 TesserAct를 사용하며 언어 팩에 의존합니다. Linux 사용자의 경우 종종 언어 팩을 제공하는 패키지를 찾을 수 있습니다.

 # Display a list of all Tesseract language packs
apt-cache search tesseract-ocr

# Debian/Ubuntu users
apt-get install tesseract-ocr-chi-sim  # Example: Install Chinese Simplified language pack

# Arch Linux users
pacman -S tesseract-data-eng tesseract-data-deu # Example: Install the English and German language packs

# brew macOS users
brew install tesseract-lang

그런 다음 -l LANG 인수를 OCRMYPDF로 전달하여 검색 해야하는 언어에 대한 힌트를 줄 수 있습니다. 여러 언어를 요청할 수 있습니다.

OCRMYPDF는 TesserAct 4.1.1+를 지원합니다. PATH 환경 변수에서 먼저 찾은 버전을 자동으로 사용합니다. Windows에서 PATH 에 TesserAct 바이너리가 제공되지 않으면 Windows 레지스트리에 따라 설치된 가장 높은 버전 번호를 사용합니다.

문서 및 지원

OCRMYPDF가 설치되면 명령 구문 및 옵션을 설명하는 내장 도움말은 다음을 통해 액세스 할 수 있습니다.

ocrmypdf --help

우리의 문서는 문서 읽기에 제공됩니다.

GitHub 문제 페이지에 문제를보고하고 문제 템플릿을 따라 빠른 응답을 받으십시오.

기능 데모

 # Add an OCR layer and convert to PDF/A
ocrmypdf input.pdf output.pdf

# Convert an image to single page PDF
ocrmypdf input.jpg output.pdf

# Add OCR to a file in place (only modifies file on success)
ocrmypdf myfile.pdf myfile.pdf

# OCR with non-English languages (look up your language's ISO 639-3 code)
ocrmypdf -l fra LeParisien.pdf LeParisien.pdf

# OCR multilingual documents
ocrmypdf -l eng+fra Bilingual-English-French.pdf Bilingual-English-French.pdf

# Deskew (straighten crooked pages)
ocrmypdf --deskew input.pdf output.pdf

더 많은 기능은 문서를 참조하십시오.

요구 사항

필수 파이썬 버전 외에도 OCRMYPDF는 Ghostscript 및 Tesseract OCR의 외부 프로그램 설치가 필요합니다. OCRMYPDF는 순수한 파이썬이며 Linux, MacOS, Windows 및 FreeBSD와 같은 거의 모든 것을 실행합니다.

프레스 및 미디어

ocrmypdf와 함께 종이가 없습니다
스캔 된 문서를 편집하여 압축 검색 가능한 PDF로 변환
C't 1-2014, 59 페이지 : 주요 독일 IT 잡지 C't에서 OCRMYPDF v1.0의 상세한 프레젠테이션
Heise 오픈 소스, 09/2014 : Texterkennung mit ocrmypdf
Heise durchsuchbare pdf-dokumente mit ocrmypdf erstellen
우수한 유틸리티 : OCRMYPDF
Linuxuser texterkennung mit ocrmypdf und scanbd automatisieren
Y 조합기 토론

비즈니스 문의

OCRMYPDF는 회사와 사용자가 기능 개발 및 컨설팅 문의를 지원하기로 선택하지 않고 오늘날의 소프트웨어가 아닙니다. 기존 기능 세트를 확장하거나 OCRMYPDF를 더 큰 시스템에 통합하는지 여부에 관계없이 모든 문의 사항에 대해 기꺼이 논의하게되어 기쁩니다.

특허

OCRMYPDF 소프트웨어는 Mozilla Public License 2.0 (MPL-2.0)에 따라 라이센스가 부여됩니다. 이 라이센스는 OCRMYPDF와 상업용 및 폐쇄 소스가 포함 된 다른 코드와 통합을 허용하지만 OCRMYPDF에 소스 수준 수정을 게시하도록 요청합니다.