OCRMYPDF fügt gescannte PDF-Dateien eine OCR-Textebene hinzu, sodass sie durchsucht oder kopiert werden können.
ocrmypdf # it's a scriptable command line program
-l eng+fra # it supports multiple languages
--rotate-pages # it can fix pages that are misrotated
--deskew # it can deskew crooked PDFs!
--title " My PDF " # it can change output metadata
--jobs 4 # it uses multiple cores by default
--output-type pdfa # it produces PDF/A by default
input_scanned.pdf # takes PDF input (or images)
output_searchable.pdf # produces validated PDF output
Weitere Informationen zu den neuesten Änderungen finden Sie in den Versionshinweise.
Für Details: Bitte konsultieren Sie die Dokumentation.
Ich habe das Web nach einem kostenlosen Befehlszeilen -Tool gesucht, um PDF -Dateien zu ocr: Ich habe viele gefunden, aber keiner von ihnen war wirklich befriedigend:
... Also habe ich mich entschlossen, mein eigenes Werkzeug zu entwickeln.
Linux, Windows, MacOS und FreeBSD werden unterstützt. Docker -Bilder sind auch für X64 und ARM verfügbar.
Betriebssystem | Befehl installieren |
---|---|
Debian, Ubuntu | apt install ocrmypdf |
Windows -Subsystem für Linux | apt install ocrmypdf |
Fedora | dnf install ocrmypdf |
macos (homebrew) | brew install ocrmypdf |
macOS (Macports) | port install ocrmypdf |
macOS (NIX) | nix-env -i ocrmypdf |
Linuxbrew | brew install ocrmypdf |
FreeBSD | pkg install py-ocrmypdf |
Ubuntu Snap | snap install ocrmypdf |
Für alle anderen finden Sie unsere Dokumentation für Installationsschritte.
OCRMYPDF verwendet Tesseract für OCR und stützt sich auf seine Sprachpakete. Für Linux -Benutzer finden Sie häufig Pakete, die Sprachpakete bereitstellen:
# Display a list of all Tesseract language packs
apt-cache search tesseract-ocr
# Debian/Ubuntu users
apt-get install tesseract-ocr-chi-sim # Example: Install Chinese Simplified language pack
# Arch Linux users
pacman -S tesseract-data-eng tesseract-data-deu # Example: Install the English and German language packs
# brew macOS users
brew install tesseract-lang
Sie können dann das Argument -l LANG
an ocrmypdf weitergeben, um einen Hinweis darauf zu geben, welche Sprachen es suchen sollte. Es können mehrere Sprachen angefordert werden.
OCRMYPDF unterstützt Tesseract 4.1.1+. Es wird automatisch die Version verwendet, die es zuerst in der PATH
findet. Wenn PATH
unter Windows keine Tesseract -Binärdatei bietet, verwenden wir die höchste Versionsnummer, die gemäß der Windows -Registrierung installiert wird.
Sobald OCRMYPDF installiert ist, kann die integrierte Hilfe auf die Befehlssyntax und die Optionen erläutert werden.
ocrmypdf --help
Unsere Dokumentation wird in Lesen der Dokumente zugestellt.
Bitte melden Sie Probleme auf unserer Seite mit GitHub -Problemen und befolgen Sie die Problemvorlage, um eine schnelle Antwort zu erhalten.
# Add an OCR layer and convert to PDF/A
ocrmypdf input.pdf output.pdf
# Convert an image to single page PDF
ocrmypdf input.jpg output.pdf
# Add OCR to a file in place (only modifies file on success)
ocrmypdf myfile.pdf myfile.pdf
# OCR with non-English languages (look up your language's ISO 639-3 code)
ocrmypdf -l fra LeParisien.pdf LeParisien.pdf
# OCR multilingual documents
ocrmypdf -l eng+fra Bilingual-English-French.pdf Bilingual-English-French.pdf
# Deskew (straighten crooked pages)
ocrmypdf --deskew input.pdf output.pdf
Weitere Funktionen finden Sie in der Dokumentation.
Zusätzlich zur erforderlichen Python -Version benötigt OCRMYPDF externe Programminstallationen von Ghostscript und Tesseract OCR. OCRMYPDF ist reines Python und läuft so ziemlich alles: Linux, MacOS, Windows und FreeBSD.
OCRMYPDF wäre nicht die Software, die heute ohne Unternehmen und Benutzer sich entscheiden, um Unterstützung für die Entwicklung von Funktionen und Beratungsanfragen zu unterstützen. Wir freuen uns, alle Anfragen zu diskutieren, sei es zur Erweiterung des vorhandenen Feature -Sets oder zur Integration von OCRMYPDF in ein größeres System.
Die OCRMYPDF-Software ist unter der Mozilla Public Lizenz 2.0 (MPL-2.0) lizenziert. Diese Lizenz ermöglicht die Integration von OCRMYPDF mit einem anderen Code, beinhaltete kommerzielle und geschlossene Quelle, fordert Sie jedoch auf, Änderungen auf Quellenebene an OCRMYPDF zu veröffentlichen.
Einige Komponenten von OCRMYPDF haben andere Lizenzen, wie durch Standard -SPDX -Lizenzkennungen oder die DEP5 -Copyright- und Lizenzinformationsdatei angegeben. Im Allgemeinen ist der Nicht-Core-Code unter MIT lizenziert und die Dokumentations- und Testdateien werden unter Creative Commons Sharealike 4.0 (CC-by-SA 4.0) lizenziert.
Die Software wird auf "As is" -Basis ohne Gewährleistungen oder Bedingungen jeglicher Art ausdrücklich oder impliziert verteilt.