OCRMYPDF agrega una capa de texto de OCR a los archivos PDF escaneados, lo que permite que se registren o se copian pasajeros.
ocrmypdf # it's a scriptable command line program
-l eng+fra # it supports multiple languages
--rotate-pages # it can fix pages that are misrotated
--deskew # it can deskew crooked PDFs!
--title " My PDF " # it can change output metadata
--jobs 4 # it uses multiple cores by default
--output-type pdfa # it produces PDF/A by default
input_scanned.pdf # takes PDF input (or images)
output_searchable.pdf # produces validated PDF output
Vea las notas de la versión para obtener detalles sobre los últimos cambios.
Para más detalles: consulte la documentación.
Busqué en la web una herramienta de línea de comandos gratuita a archivos PDF OCR: encontré muchos, pero ninguno de ellos era realmente satisfactorio:
... así que decidí desarrollar mi propia herramienta.
Se admiten Linux, Windows, MacOS y FreeBSD. Las imágenes de Docker también están disponibles, tanto para X64 como para ARM.
Sistema operativo | Comando de instalación |
---|---|
Debian, Ubuntu | apt install ocrmypdf |
Subsistema de Windows para Linux | apt install ocrmypdf |
Fedora | dnf install ocrmypdf |
MacOS (Homebrew) | brew install ocrmypdf |
MacOS (MacPorts) | port install ocrmypdf |
MacOS (Nix) | nix-env -i ocrmypdf |
Linuxbrew | brew install ocrmypdf |
FreeBSD | pkg install py-ocrmypdf |
Ubuntu Snap | snap install ocrmypdf |
Para todos los demás, vea nuestra documentación para los pasos de instalación.
OCRMYPDF usa Tesseract para OCR y se basa en sus paquetes de idiomas. Para los usuarios de Linux, a menudo puede encontrar paquetes que proporcionen paquetes de idiomas:
# Display a list of all Tesseract language packs
apt-cache search tesseract-ocr
# Debian/Ubuntu users
apt-get install tesseract-ocr-chi-sim # Example: Install Chinese Simplified language pack
# Arch Linux users
pacman -S tesseract-data-eng tesseract-data-deu # Example: Install the English and German language packs
# brew macOS users
brew install tesseract-lang
Luego puede pasar el argumento -l LANG
a OCRMyPDF para dar una pista sobre qué idiomas debe buscar. Se pueden solicitar varios idiomas.
OCRMYPDF admite Tesseract 4.1.1+. Usará automáticamente la versión que encuentre primero en la variable de entorno PATH
. En Windows, si PATH
no proporciona un binario Tesseract, utilizamos el número de versión más alto que se instala de acuerdo con el registro de Windows.
Una vez que se instala OCRMYPDF, la ayuda incorporada que explica la sintaxis del comando y las opciones se puede acceder a través de:
ocrmypdf --help
Nuestra documentación se sirve en Read the Docs.
Informe los problemas en nuestra página de problemas de GitHub y siga la plantilla de problema para una respuesta rápida.
# Add an OCR layer and convert to PDF/A
ocrmypdf input.pdf output.pdf
# Convert an image to single page PDF
ocrmypdf input.jpg output.pdf
# Add OCR to a file in place (only modifies file on success)
ocrmypdf myfile.pdf myfile.pdf
# OCR with non-English languages (look up your language's ISO 639-3 code)
ocrmypdf -l fra LeParisien.pdf LeParisien.pdf
# OCR multilingual documents
ocrmypdf -l eng+fra Bilingual-English-French.pdf Bilingual-English-French.pdf
# Deskew (straighten crooked pages)
ocrmypdf --deskew input.pdf output.pdf
Para obtener más funciones, consulte la documentación.
Además de la versión de Python requerida, OCRMYPDF requiere instalaciones de programas externas de GhostScript y Tesseract OCR. OCRMYPDF es Python puro y se ejecuta en casi todo: Linux, MacOS, Windows y FreeBSD.
OCRMYPDF no sería el software que es hoy sin empresas y usuarios que eligen brindar soporte para el desarrollo de funciones y consultas de consultoría. Nos complace discutir todas las consultas, ya sea para extender el conjunto de características existente o integrar OCRMYPDF en un sistema más grande.
El software OCRMYPDF tiene licencia bajo la Licencia Pública de Mozilla 2.0 (MPL-2.0). Esta licencia permite la integración de OCRMYPDF con otro código, incluyó una fuente comercial y cerrada, pero le pide que publique modificaciones a nivel de origen que realice a OCRMYPDF.
Algunos componentes de OCRMYPDF tienen otras licencias, como lo indican los identificadores de licencia SPDX estándar o el archivo de información de autor y licencia DEP5. En términos generales, el código no es-corre está licenciado bajo MIT, y la documentación y los archivos de prueba tienen licencia bajo Creative Commons Sharealike 4.0 (CC-by-SA 4.0).
El software se distribuye sobre una base "como es", sin garantías o condiciones de ningún tipo, ya sea expresa o implícita.