OCRmyPDFダウンロードOCRmyPDFソースコードのダウンロード

OCRmyPDF

その他のソースコード

v16.6.2

ダウンロード

OCRMYPDFは、スキャンされたPDFファイルにOCRテキストレイヤーを追加し、検索またはコピーペストを可能にします。

ocrmypdf                      # it's a scriptable command line program
   -l eng+fra                 # it supports multiple languages
   --rotate-pages             # it can fix pages that are misrotated
   --deskew                   # it can deskew crooked PDFs!
   --title " My PDF "           # it can change output metadata
   --jobs 4                   # it uses multiple cores by default
   --output-type pdfa         # it produces PDF/A by default
   input_scanned.pdf          # takes PDF input (or images)
   output_searchable.pdf      # produces validated PDF output

最新の変更の詳細については、リリースノートを参照してください。

主な機能

通常のPDFから検索可能なPDF/Aファイルを生成します
OCRテキストを画像の下に正確に配置して、コピー /貼り付けを容易にします
元の埋め込み画像の正確な解像度を保持します
可能であれば、OCR情報を他のコンテンツを破壊せずに「ロスレス」操作として挿入します
PDF画像を最適化し、多くの場合、入力ファイルよりも小さいファイルを生成します
要求された場合は、OCRを実行する前に画像をデッキングおよび/またはクリーニングします
入力ファイルと出力ファイルを検証します
利用可能なすべてのCPUコアに作業を配布します
Tesseract OCRエンジンを使用して、100を超える言語を認識します
プライベートデータをプライベートに保ちます。
数千ページのファイルを処理するために適切にスケールします。
数百万のPDFでバトルテスト。

詳細については、ドキュメントを参照してください。

モチベーション

OCR PDFファイルへの無料のコマンドラインツールをWebで検索しました。私は多くを見つけましたが、どれも本当に満足していませんでした。

画像の下に置き忘れたテキストを備えたPDFファイルを作成しました（コピー/貼り付けを不可能にします）
または、アクセントや多言語のキャラクターを処理しませんでした
または、埋め込まれた画像の解像度を変更しました
または、途方もなく大きなPDFファイルを生成しました
または、OCRを試みたときにクラッシュしました
または、有効なPDFファイルを作成しませんでした
それに加えて、それらのどれもPDF/Aファイルを生成しませんでした（長年ストレージ専用のフォーマット）

...だから私は自分のツールを開発することにしました。

インストール

Linux、Windows、MacOS、FreeBSDがサポートされています。 X64とARMの両方でDocker画像も利用できます。

オペレーティング·システム	コマンドをインストールします
デビアン、ubuntu	`apt install ocrmypdf`
Linux用のWindowsサブシステム	`apt install ocrmypdf`
フェドラ	`dnf install ocrmypdf`
macos（homebrew）	`brew install ocrmypdf`
MacOS（MacPorts）	`port install ocrmypdf`
macos（nix）	`nix-env -i ocrmypdf`
LinuxBrew	`brew install ocrmypdf`
FreeBSD	`pkg install py-ocrmypdf`
ubuntuスナップ	`snap install ocrmypdf`

他のすべての人については、インストール手順についてはドキュメントをご覧ください。

言語

OCRMYPDFはOCRにTesseractを使用し、その言語パックに依存しています。 Linuxユーザーの場合、多くの場合、言語パックを提供するパッケージを見つけることができます。

 # Display a list of all Tesseract language packs
apt-cache search tesseract-ocr

# Debian/Ubuntu users
apt-get install tesseract-ocr-chi-sim  # Example: Install Chinese Simplified language pack

# Arch Linux users
pacman -S tesseract-data-eng tesseract-data-deu # Example: Install the English and German language packs

# brew macOS users
brew install tesseract-lang

その後、 -l LANG引数をOCRMYPDFに渡して、検索する言語についてのヒントを与えることができます。複数の言語を要求できます。

OCRMYPDFはTesseract 4.1.1+をサポートしています。 PATH環境変数で最初に見つけたバージョンを自動的に使用します。 Windowsでは、 PATH Tesseractバイナリを提供していない場合、Windowsレジストリに従ってインストールされている最高のバージョン番号を使用します。

ドキュメントとサポート

OCRMYPDFがインストールされると、コマンドの構文とオプションを説明できる組み込みヘルプが次のとおりです。

ocrmypdf --help

私たちのドキュメントは、ドキュメントの読み取りで提供されています。

githubの問題ページで問題を報告し、迅速な応答のために問題のテンプレートに従ってください。

機能デモ

 # Add an OCR layer and convert to PDF/A
ocrmypdf input.pdf output.pdf

# Convert an image to single page PDF
ocrmypdf input.jpg output.pdf

# Add OCR to a file in place (only modifies file on success)
ocrmypdf myfile.pdf myfile.pdf

# OCR with non-English languages (look up your language's ISO 639-3 code)
ocrmypdf -l fra LeParisien.pdf LeParisien.pdf

# OCR multilingual documents
ocrmypdf -l eng+fra Bilingual-English-French.pdf Bilingual-English-French.pdf

# Deskew (straighten crooked pages)
ocrmypdf --deskew input.pdf output.pdf

その他の機能については、ドキュメントを参照してください。

要件

必要なPythonバージョンに加えて、OCRMYPDFにはGhostScriptとTesseract OCRの外部プログラムインストールが必要です。 OCRMYPDFは純粋なPythonであり、Linux、Macos、Windows、FreeBSDのほとんどすべてを実行します。

プレス＆メディア

ocrmypdfでペーパーレスになります
スキャンされたドキュメントを編集で圧縮された検索可能なPDFに変換する
C't 1-2014、59ページ：主要なドイツ語ITマガジンでのOCRMYPDF v1.0の詳細なプレゼンテーションc't
Heise Open Source、09/2014：Texterkennung Mit OCRMYPDF
heise durchsuchbare pdf-dokumente mit ocrmypdf erstellen
優れたユーティリティ：ocrmypdf
Linuxuser texterkennung mit ocrmypdf und scanbd automatisieren
Yコンビネーターディスカッション

ビジネスに関する問い合わせ

OCRMYPDFは、企業やユーザーが機能開発とコンサルティングの問い合わせのサポートを提供することを選択していないことがなければ、今日のソフトウェアではありません。既存の機能セットを拡張する場合、またはOCRMYPDFをより大きなシステムに統合する場合、すべての問い合わせについて喜んで話し合います。

ライセンス

OCRMYPDFソフトウェアは、Mozilla Public License 2.0（MPL-2.0）の下でライセンスされています。このライセンスでは、OCRMYPDFと他のコードと閉じたソースが含まれている他のコードと統合が許可されていますが、OCRMYPDFに行ったソースレベルの変更を公開するよう求められます。

OCRMYPDFの一部のコンポーネントには、標準のSPDXライセンス識別子またはDEP5著作権およびライセンス情報ファイルで示されるように、他のライセンスがあります。一般的に言えば、非コアコードはMITの下でライセンスされており、ドキュメントとテストファイルはCreative Commons Sharealike 4.0（CC-SA 4.0）の下でライセンスされています。