OCRMYPDFは、スキャンされたPDFファイルにOCRテキストレイヤーを追加し、検索またはコピーペストを可能にします。
ocrmypdf # it's a scriptable command line program
-l eng+fra # it supports multiple languages
--rotate-pages # it can fix pages that are misrotated
--deskew # it can deskew crooked PDFs!
--title " My PDF " # it can change output metadata
--jobs 4 # it uses multiple cores by default
--output-type pdfa # it produces PDF/A by default
input_scanned.pdf # takes PDF input (or images)
output_searchable.pdf # produces validated PDF output
最新の変更の詳細については、リリースノートを参照してください。
詳細については、ドキュメントを参照してください。
OCR PDFファイルへの無料のコマンドラインツールをWebで検索しました。私は多くを見つけましたが、どれも本当に満足していませんでした。
...だから私は自分のツールを開発することにしました。
Linux、Windows、MacOS、FreeBSDがサポートされています。 X64とARMの両方でDocker画像も利用できます。
オペレーティング·システム | コマンドをインストールします |
---|---|
デビアン、ubuntu | apt install ocrmypdf |
Linux用のWindowsサブシステム | apt install ocrmypdf |
フェドラ | dnf install ocrmypdf |
macos(homebrew) | brew install ocrmypdf |
MacOS(MacPorts) | port install ocrmypdf |
macos(nix) | nix-env -i ocrmypdf |
LinuxBrew | brew install ocrmypdf |
FreeBSD | pkg install py-ocrmypdf |
ubuntuスナップ | snap install ocrmypdf |
他のすべての人については、インストール手順についてはドキュメントをご覧ください。
OCRMYPDFはOCRにTesseractを使用し、その言語パックに依存しています。 Linuxユーザーの場合、多くの場合、言語パックを提供するパッケージを見つけることができます。
# Display a list of all Tesseract language packs
apt-cache search tesseract-ocr
# Debian/Ubuntu users
apt-get install tesseract-ocr-chi-sim # Example: Install Chinese Simplified language pack
# Arch Linux users
pacman -S tesseract-data-eng tesseract-data-deu # Example: Install the English and German language packs
# brew macOS users
brew install tesseract-lang
その後、 -l LANG
引数をOCRMYPDFに渡して、検索する言語についてのヒントを与えることができます。複数の言語を要求できます。
OCRMYPDFはTesseract 4.1.1+をサポートしています。 PATH
環境変数で最初に見つけたバージョンを自動的に使用します。 Windowsでは、 PATH
Tesseractバイナリを提供していない場合、Windowsレジストリに従ってインストールされている最高のバージョン番号を使用します。
OCRMYPDFがインストールされると、コマンドの構文とオプションを説明できる組み込みヘルプが次のとおりです。
ocrmypdf --help
私たちのドキュメントは、ドキュメントの読み取りで提供されています。
githubの問題ページで問題を報告し、迅速な応答のために問題のテンプレートに従ってください。
# Add an OCR layer and convert to PDF/A
ocrmypdf input.pdf output.pdf
# Convert an image to single page PDF
ocrmypdf input.jpg output.pdf
# Add OCR to a file in place (only modifies file on success)
ocrmypdf myfile.pdf myfile.pdf
# OCR with non-English languages (look up your language's ISO 639-3 code)
ocrmypdf -l fra LeParisien.pdf LeParisien.pdf
# OCR multilingual documents
ocrmypdf -l eng+fra Bilingual-English-French.pdf Bilingual-English-French.pdf
# Deskew (straighten crooked pages)
ocrmypdf --deskew input.pdf output.pdf
その他の機能については、ドキュメントを参照してください。
必要なPythonバージョンに加えて、OCRMYPDFにはGhostScriptとTesseract OCRの外部プログラムインストールが必要です。 OCRMYPDFは純粋なPythonであり、Linux、Macos、Windows、FreeBSDのほとんどすべてを実行します。
OCRMYPDFは、企業やユーザーが機能開発とコンサルティングの問い合わせのサポートを提供することを選択していないことがなければ、今日のソフトウェアではありません。既存の機能セットを拡張する場合、またはOCRMYPDFをより大きなシステムに統合する場合、すべての問い合わせについて喜んで話し合います。
OCRMYPDFソフトウェアは、Mozilla Public License 2.0(MPL-2.0)の下でライセンスされています。このライセンスでは、OCRMYPDFと他のコードと閉じたソースが含まれている他のコードと統合が許可されていますが、OCRMYPDFに行ったソースレベルの変更を公開するよう求められます。
OCRMYPDFの一部のコンポーネントには、標準のSPDXライセンス識別子またはDEP5著作権およびライセンス情報ファイルで示されるように、他のライセンスがあります。一般的に言えば、非コアコードはMITの下でライセンスされており、ドキュメントとテストファイルはCreative Commons Sharealike 4.0(CC-SA 4.0)の下でライセンスされています。
ソフトウェアは、明示的または暗示されているいずれかの種類の保証または条件なしで、「現状のまま」ベースで配布されます。