Descargar OCRmyPDF - Descargar el código fuente OCRmyPDF

OCRmyPDF

Otro código fuente

v16.6.2

Descargar

OCRMYPDF agrega una capa de texto de OCR a los archivos PDF escaneados, lo que permite que se registren o se copian pasajeros.

ocrmypdf                      # it's a scriptable command line program
   -l eng+fra                 # it supports multiple languages
   --rotate-pages             # it can fix pages that are misrotated
   --deskew                   # it can deskew crooked PDFs!
   --title " My PDF "           # it can change output metadata
   --jobs 4                   # it uses multiple cores by default
   --output-type pdfa         # it produces PDF/A by default
   input_scanned.pdf          # takes PDF input (or images)
   output_searchable.pdf      # produces validated PDF output

Vea las notas de la versión para obtener detalles sobre los últimos cambios.

Características principales

Genera un archivo PDF/A de búsqueda de un PDF regular
Coloca el texto OCR con precisión debajo de la imagen para facilitar la copia / pegar
Mantiene la resolución exacta de las imágenes integradas originales
Cuando sea posible, inserta información de OCR como una operación "sin pérdidas" sin interrumpir ningún otro contenido
Optimiza las imágenes PDF, a menudo produciendo archivos más pequeños que el archivo de entrada
Si se solicita, Deskews y/o limpia la imagen antes de realizar OCR
Valida los archivos de entrada y salida
Distribuye el trabajo en todos los núcleos de CPU disponibles
Utiliza el motor Tesseract OCR para reconocer más de 100 idiomas
Mantiene sus datos privados privados.
Escala correctamente para manejar archivos con miles de páginas.
Battle probado en millones de PDF.

Para más detalles: consulte la documentación.

Motivación

Busqué en la web una herramienta de línea de comandos gratuita a archivos PDF OCR: encontré muchos, pero ninguno de ellos era realmente satisfactorio:

O produjeron archivos PDF con texto fuera de lugar debajo de la imagen (haciendo imposible copiar/pegar)
O no manejaron acentos y caracteres multilingües
O cambiaron la resolución de las imágenes integradas
O generaron archivos PDF ridículamente grandes
O se estrellaron al intentar OCR
O no produjeron archivos PDF válidos
Además de eso, ninguno de ellos produjo archivos PDF/A (formato dedicado para el almacenamiento de mucho tiempo)

... así que decidí desarrollar mi propia herramienta.

Instalación

Se admiten Linux, Windows, MacOS y FreeBSD. Las imágenes de Docker también están disponibles, tanto para X64 como para ARM.

Sistema operativo	Comando de instalación
Debian, Ubuntu	`apt install ocrmypdf`
Subsistema de Windows para Linux	`apt install ocrmypdf`
Fedora	`dnf install ocrmypdf`
MacOS (Homebrew)	`brew install ocrmypdf`
MacOS (MacPorts)	`port install ocrmypdf`
MacOS (Nix)	`nix-env -i ocrmypdf`
Linuxbrew	`brew install ocrmypdf`
FreeBSD	`pkg install py-ocrmypdf`
Ubuntu Snap	`snap install ocrmypdf`

Para todos los demás, vea nuestra documentación para los pasos de instalación.

Lenguas

OCRMYPDF usa Tesseract para OCR y se basa en sus paquetes de idiomas. Para los usuarios de Linux, a menudo puede encontrar paquetes que proporcionen paquetes de idiomas:

 # Display a list of all Tesseract language packs
apt-cache search tesseract-ocr

# Debian/Ubuntu users
apt-get install tesseract-ocr-chi-sim  # Example: Install Chinese Simplified language pack

# Arch Linux users
pacman -S tesseract-data-eng tesseract-data-deu # Example: Install the English and German language packs

# brew macOS users
brew install tesseract-lang

Luego puede pasar el argumento -l LANG a OCRMyPDF para dar una pista sobre qué idiomas debe buscar. Se pueden solicitar varios idiomas.

OCRMYPDF admite Tesseract 4.1.1+. Usará automáticamente la versión que encuentre primero en la variable de entorno PATH . En Windows, si PATH no proporciona un binario Tesseract, utilizamos el número de versión más alto que se instala de acuerdo con el registro de Windows.

Documentación y apoyo

Una vez que se instala OCRMYPDF, la ayuda incorporada que explica la sintaxis del comando y las opciones se puede acceder a través de:

ocrmypdf --help

Nuestra documentación se sirve en Read the Docs.

Informe los problemas en nuestra página de problemas de GitHub y siga la plantilla de problema para una respuesta rápida.

Demostración de características

 # Add an OCR layer and convert to PDF/A
ocrmypdf input.pdf output.pdf

# Convert an image to single page PDF
ocrmypdf input.jpg output.pdf

# Add OCR to a file in place (only modifies file on success)
ocrmypdf myfile.pdf myfile.pdf

# OCR with non-English languages (look up your language's ISO 639-3 code)
ocrmypdf -l fra LeParisien.pdf LeParisien.pdf

# OCR multilingual documents
ocrmypdf -l eng+fra Bilingual-English-French.pdf Bilingual-English-French.pdf

# Deskew (straighten crooked pages)
ocrmypdf --deskew input.pdf output.pdf

Para obtener más funciones, consulte la documentación.

Requisitos

Además de la versión de Python requerida, OCRMYPDF requiere instalaciones de programas externas de GhostScript y Tesseract OCR. OCRMYPDF es Python puro y se ejecuta en casi todo: Linux, MacOS, Windows y FreeBSD.

Prensa y medios

Ir sin papel con ocrmypdf
Convertir un documento escaneado en un PDF de búsqueda comprimido con redacciones
C'T 1-2014, página 59: Presentación detallada de OCRMYPDF V1.0 en la revista IT de alemán líder C'T C'T
Heise Open Source, 09/2014: Texterkennung MIT OCRMYPDF
Heise Durchsuchbare PDF-Dokumento MIT OCRMYPDF ESTRELLEN
Excelente utilidades: OCRMYPDF
Linuxuser Texterkennung MIT OCRMYPDF und ScanBD Automatisieren
Y discusión combinadora

Consultas comerciales

OCRMYPDF no sería el software que es hoy sin empresas y usuarios que eligen brindar soporte para el desarrollo de funciones y consultas de consultoría. Nos complace discutir todas las consultas, ya sea para extender el conjunto de características existente o integrar OCRMYPDF en un sistema más grande.

Licencia

El software OCRMYPDF tiene licencia bajo la Licencia Pública de Mozilla 2.0 (MPL-2.0). Esta licencia permite la integración de OCRMYPDF con otro código, incluyó una fuente comercial y cerrada, pero le pide que publique modificaciones a nivel de origen que realice a OCRMYPDF.

Algunos componentes de OCRMYPDF tienen otras licencias, como lo indican los identificadores de licencia SPDX estándar o el archivo de información de autor y licencia DEP5. En términos generales, el código no es-corre está licenciado bajo MIT, y la documentación y los archivos de prueba tienen licencia bajo Creative Commons Sharealike 4.0 (CC-by-SA 4.0).