OCRmyPDF下载OCRmyPDF源代码下载

OCRmyPDF

其他源码

v16.6.2

下载

OCRMYPDF将OCR文本层添加到扫描的PDF文件中，从而搜索或复制它们。

ocrmypdf                      # it's a scriptable command line program
   -l eng+fra                 # it supports multiple languages
   --rotate-pages             # it can fix pages that are misrotated
   --deskew                   # it can deskew crooked PDFs!
   --title " My PDF "           # it can change output metadata
   --jobs 4                   # it uses multiple cores by default
   --output-type pdfa         # it produces PDF/A by default
   input_scanned.pdf          # takes PDF input (or images)
   output_searchable.pdf      # produces validated PDF output

有关最新更改的详细信息，请参见发行说明。

主要功能

从常规PDF生成可搜索的PDF/A文件
将OCR文本准确地放在图像下方，以简化复制 /粘贴
保持原始嵌入图像的确切分辨率
如果可能
优化PDF图像，通常会产生小于输入文件的文件
如果要求，请在执行OCR之前删除和/或清洁图像
验证输入和输出文件
在所有可用的CPU内核上分发工作
使用Tesseract OCR引擎识别100多种语言
保持您的私人数据私有。
适当地缩放以处理数千页的文件。
经过数百万PDF的战斗测试。

有关详细信息：请咨询文档。

动机

我搜索了网络上的免费命令行工具到OCR PDF文件：我找到了很多，但它们都没有真正令人满意：

他们要么生成图像下的PDF文件带有错位文本（使复制/粘贴不可能）
否则他们没有处理口音和多语言字符
或者他们更改了嵌入式图像的分辨率
或者他们产生了荒谬的大PDF文件
或者他们试图去OCR时坠毁
或者他们没有产生有效的PDF文件
最重要的是，它们都没有产生PDF/A文件（用于长时间存储的格式）

...所以我决定开发自己的工具。

安装

支持Linux，Windows，MacOS和FreeBSD。 X64和ARM都可以使用Docker图像。

操作系统	安装命令
Debian，Ubuntu	`apt install ocrmypdf`
Linux的Windows子系统	`apt install ocrmypdf`
软呢帽	`dnf install ocrmypdf`
macos（自制）	`brew install ocrmypdf`
MacOS（MacPorts）	`port install ocrmypdf`
macos（nix）	`nix-env -i ocrmypdf`
Linuxbrew	`brew install ocrmypdf`
freebsd	`pkg install py-ocrmypdf`
ubuntu snap	`snap install ocrmypdf`

对于其他所有人，请参阅我们的文档以获取安装步骤。

语言

OCRMYPDF使用Tesseract进行OCR，并依靠其语言包。对于Linux用户，您通常可以找到提供语言包的软件包：

 # Display a list of all Tesseract language packs
apt-cache search tesseract-ocr

# Debian/Ubuntu users
apt-get install tesseract-ocr-chi-sim  # Example: Install Chinese Simplified language pack

# Arch Linux users
pacman -S tesseract-data-eng tesseract-data-deu # Example: Install the English and German language packs

# brew macOS users
brew install tesseract-lang

然后，您可以将-l LANG参数传递给OCRMYPDF，以提示它应该搜索的语言。可以请求多种语言。

OCRMYPDF支持Tesseract 4.1.1+。它将自动使用在PATH环境变量上首先找到的任何版本。在Windows上，如果PATH不提供Tesseract二进制，我们使用根据Windows注册表安装的最高版本号。

文档和支持

安装了OCRMYPDF后，可以通过以下方式访问命令语法的内置帮助：

ocrmypdf --help

我们的文档在阅读文档上提供。

请在我们的GITHUB问题页面上报告问题，然后遵循问题模板进行快速响应。

功能演示

 # Add an OCR layer and convert to PDF/A
ocrmypdf input.pdf output.pdf

# Convert an image to single page PDF
ocrmypdf input.jpg output.pdf

# Add OCR to a file in place (only modifies file on success)
ocrmypdf myfile.pdf myfile.pdf

# OCR with non-English languages (look up your language's ISO 639-3 code)
ocrmypdf -l fra LeParisien.pdf LeParisien.pdf

# OCR multilingual documents
ocrmypdf -l eng+fra Bilingual-English-French.pdf Bilingual-English-French.pdf

# Deskew (straighten crooked pages)
ocrmypdf --deskew input.pdf output.pdf

有关更多功能，请参见文档。