Chino • Inglés • Japonés
Software OCR fuera de línea gratuito, de código abierto y con capacidad por lotes
Aplicable a Windows7 x64, Linux x64
Gratis : Todo el código de este proyecto es de código abierto y completamente gratuito.
Conveniente : descomprímalo y úselo, ejecútelo sin conexión, no requiere red.
Eficiente : viene con un motor de OCR fuera de línea altamente eficiente y bibliotecas integradas de reconocimiento de múltiples idiomas.
Flexible : admite métodos de llamadas externos, como la línea de comandos y la interfaz HTTP.
Funciones : OCR de captura de pantalla/OCR por lotes/reconocimiento de PDF/código QR/reconocimiento de fórmulas
Reconocimiento de captura de pantalla
Análisis tipográfico: identifique diferentes tipos de tipos y genere texto en el orden correcto
Identificación de lotes
Ignorar área: excluye el texto en la marca de agua de la captura de pantalla
El código QR admite escanear o generar imágenes de códigos QR
El reconocimiento de documentos extrae texto de escaneos de PDF o los convierte en archivos PDF de dos capas con capacidad de búsqueda
Configuraciones globales
llamada de línea de comando
interfaz HTTP
Construya el proyecto (Windows, Linux)
Desarrolladores, asegúrese de leer Proyectos de construcción.
Los siguientes enlaces de lanzamiento se mantienen durante mucho tiempo y proporcionan descargas de versiones estables.
Lanzoul Cloud https://hiroi-sora.lanzoul.com/s/umi-ocr (recomendación nacional, sin registro/velocidad ilimitada)
GitHub https://github.com/hiroi-sora/Umi-OCR/releases/latest
Fuente Forge https://sourceforge.net/projects/umi-ocr
Scoop es un programa de instalación de línea de comandos en Windows que puede administrar fácilmente múltiples aplicaciones. Puedes instalar Scoop primero y luego usar las siguientes instrucciones para instalar Umi-OCR
:
Agregar cubo extras
:
scoop bucket add extras
(Opcional 1) Instale Umi-OCR (viene con motor Rapid-OCR
, buena compatibilidad):
scoop install extras/umi-ocr
(Opcional 2) Instale Umi-OCR (viene con motor Paddle-OCR
, un poco más rápido):
scoop install extras/umi-ocr-paddle
No instale ambos al mismo tiempo, los accesos directos pueden sobrescribirse. Pero puedes importar complementos adicionales y cambiar a diferentes motores de OCR en cualquier momento.
El paquete de versión del software se descarga como .7z
o un paquete autoextraíble .7z.exe
. Los paquetes autoextraíbles pueden descomprimir archivos en computadoras que no tienen instalado el software de compresión.
Este software no requiere instalación. Después de descomprimirlo, haga clic en Umi-OCR.exe
para iniciar el programa.
Si tiene algún problema, envíe un problema y haré todo lo posible para ayudarle.
La interfaz compatible con Umi-OCR está en varios idiomas. Cuando abra el software por primera vez, el idioma cambiará automáticamente según la configuración del sistema de su computadora.
Si necesita cambiar el idioma manualmente, consulte la siguiente figura,全局设置
→语言/Language
.
Umi-OCR v2 consta de una serie de pestañas flexibles y fáciles de usar. Puede abrir las pestañas requeridas según sus preferencias.
Puede cambiar la ventana a la parte superior en la esquina superior izquierda de la barra de pestañas. Las pestañas se pueden bloquear en la esquina superior derecha para evitar que se cierren accidentalmente durante el uso diario.
OCR de captura de pantalla : después de abrir esta página, puede usar las teclas de acceso directo para evocar la captura de pantalla y reconocer el texto en la imagen.
En la barra de vista previa de la imagen a la izquierda, puede seleccionar y copiar directamente con el mouse.
En la columna de registro de identificación de la derecha, se puede editar texto y se pueden seleccionar y copiar varios registros.
También admite copiar imágenes en otro lugar y pegarlas en Umi-OCR para su reconocimiento.
Acerca de la función de reconocimiento de fórmulas
Acerca del posprocesamiento de texto OCR: solución de análisis de composición tipográfica : La composición tipográfica y el orden de los resultados del OCR se pueden organizar para que el texto sea más adecuado para su lectura y uso. Plan predeterminado:
多栏-按自然段换行
: adecuado para la mayoría de los escenarios, reconoce automáticamente el diseño de varias columnas y ajusta las líneas según las reglas de párrafo natural.
多栏-总是换行
: cada declaración se ajusta.
多栏-无换行
: obliga a que todas las declaraciones se fusionen en la misma línea.
单栏-按自然段换行
/总是换行
/无换行
: similar al anterior, pero no distingue entre diseños de varias columnas.
单栏-保留缩进
: adecuada para analizar capturas de pantalla de código, conservando la sangría al principio de la línea y los espacios en la línea.
不做处理
: la salida original del motor OCR, con saltos de línea para cada declaración de forma predeterminada.
Las soluciones anteriores pueden manejar automáticamente la composición tipográfica horizontal y vertical (de derecha a izquierda). (El texto vertical también requiere el soporte del propio motor OCR)
OCR por lotes : esta página se utiliza para importar imágenes locales por lotes para su reconocimiento.
Formatos admitidos: jpg, jpe, jpeg, jfif, png, webp, bmp, tif, tiff
.
Formatos admitidos para guardar los resultados del reconocimiento: txt, jsonl, md, csv(Excel)
.
Al igual que el OCR de captura de pantalla, admite la función文本后处理
para organizar el diseño y el orden del texto OCR.
No hay límite superior en el número y se pueden importar cientos de imágenes a la vez para realizar tareas.
Admite apagado/espera automático después de completar la tarea.
Si desea reconocer imágenes largas o grandes con píxeles de gran tamaño, ajuste: configuración de página → reconocimiento de texto → limitar la longitud lateral de la imagen → [Aumentar valor] .
Tiene una funcionalidad especial忽略区域
.
Acerca del posprocesamiento de texto OCR - Ignorar áreas : una función especial en OCR por lotes, adecuada para excluir texto no deseado en imágenes.
El editor de área de ignorado se puede ingresar en la configuración de la columna derecha de la página de identificación de lote.
Como en el ejemplo anterior, hay varias marcas de agua/LOGO en las esquinas superior e inferior derecha de la imagen. Si dichas imágenes se reconocen en lotes, las marcas de agua interferirán con los resultados del reconocimiento.
Mantenga presionado el botón derecho y dibuje varios cuadros rectangulares. El texto dentro de estas áreas se ignorará en la misión.
Intente hacer que el marco rectangular sea lo más grande posible para cubrir completamente todas las ubicaciones posibles de la marca de agua.
Tenga en cuenta que solo se ignorará todo el bloque de texto dentro del cuadro de región ignorada (no los caracteres individuales). Como se muestra en la figura siguiente, el rectángulo oscuro con un borde amarillo es un área ignorada. Entonces solo se ignorará key_mouse
. Se conservan los dos bloques de texto pubsub_connector.py
y pubsub_service.py
.
Identificación del documento :
Formatos admitidos: pdf, xps, epub, mobi, fb2, cbz
.
Realice OCR en documentos escaneados o extraiga el texto original. Se puede exportar como un PDF de dos capas con capacidad de búsqueda .
Admite la configuración de áreas de ignorar , que se pueden usar para excluir el texto del encabezado y pie de página.
Se puede configurar para que se apague/hiberne automáticamente una vez completada la tarea.
Código de escaneo :
Tome una captura de pantalla, pegue o arrastre a una imagen local y lea el código QR y el código de barras que contiene.
Admite múltiples códigos para una imagen.
Admite 19 protocolos, de la siguiente manera:
Aztec
, Codabar
, Code128
, Code39
, Code93
, DataBar
, DataBarExpanded
, DataMatrix
, EAN13
, EAN8
, ITF
, LinearCodes
, MatrixCodes
, MaxiCode
, MicroQRCode
, PDF417
, QRCode
, UPCA
, UPCE
Generar código :
Ingrese texto y genere una imagen de código QR.
Admite 19 protocolos y niveles de corrección de errores y otros parámetros.
Configuración global : aquí puede ajustar los parámetros globales del software. Las funciones más utilizadas son las siguientes:
Agregue accesos directos o configure el inicio automático al arrancar con un solo clic.
Cambiar idioma de la interfaz. Umi admite chino tradicional, inglés, japonés y otros idiomas.
Cambiar tema de interfaz. Umi tiene múltiples temas claros y oscuros.
Ajuste el tamaño y la fuente del texto de la interfaz .
Cambie el complemento OCR.
Renderizador : la interfaz del software admite el renderizado acelerado por tarjeta gráfica de forma predeterminada. Si las capturas de pantalla parpadean y la interfaz de usuario no está alineada en su máquina, ajuste界面和外观
→渲染器
, intente cambiar a un esquema de renderizado diferente o desactive la aceleración de hardware.
manual de línea de comando
manual de interfaz HTTP
Gracias a los siguientes traductores que contribuyeron con el trabajo de traducción de localización a Umi-OCR: (enumerados sin ningún orden en particular)
traductor | Idioma de contribución |
---|---|
Chelín | Inglés, chino tradicional, japonés |
Qingzheng Gao | Inglés, chino tradicional |
Weng, Chia-Ling | Inglés, chino tradicional |
linzów | Inglés, chino tradicional |
Eric Guo | Inglés |
steven0081 | Inglés |
Marcos yo | Inglés |
ciruela7x | chino tradicional |
hugoalh | chino tradicional |
ドコモ光 | japonés |
Yang Peng | portugués |
Si hay información incorrecta o falta personal, responda en esta discusión.
Este proyecto utiliza la plataforma en línea Weblate: Umi-OCR para la colaboración en traducción y localización. Damos la bienvenida a cualquier usuario a participar en el trabajo de traducción, puede corregir, complementar idiomas existentes o agregar nuevos idiomas.
¿Almacén principal?
Biblioteca de complementos
tiempo de ejecución de Windows
tiempo de ejecución de Linux
El sufijo **
indica el contenido contenido en este almacén (主仓库
).
Umi-OCR ├─ Umi-OCR.exe ├─ umi-ocr.sh └─ UmiOCR-data ├─ main.py ** ├─ version.py ** ├─ qt_res ** │ └─ 项目qt资源,包括图标和qml源码 ├─ py_src ** │ └─ 项目python源码 ├─ plugins │ └─ 插件 └─ i18n ** └─ 翻译文件
Motores de OCR fuera de línea compatibles:
PaddleOCR-json
RapidOCR-json
Marco del entorno de ejecución:
Versión personalizada de PyStand
Consulte las instrucciones al comienzo del registro de cambios.
Vaya al siguiente almacén para completar la implementación del entorno de desarrollo/operación de la plataforma correspondiente.
ventanas
linux
El proyecto Umi-OCR lo desarrolla y mantiene principalmente el autor hiroi-sora en su tiempo libre. Si le gusta este software, patrocínelo.
Los usuarios nacionales pueden patrocinar autores a través de iPower.
Marco de pestaña.
Controlador API de OCR.
Controlador de tareas OCR.
El administrador de temas admite el cambio de temas claros/oscuros.
Implementar OCR por lotes .
Implementar OCR de captura de pantalla .
Mecanismo de tecla de acceso directo.
Menú de la bandeja del sistema.
Postprocesamiento de bloques de texto (optimización tipográfica).
Limpieza de memoria del motor.
La interfaz del software está disponible en varios idiomas.
Modo de línea de comando.
Compatible con Win7.
Formato de salida Excel (csv).
Esc
interrumpe la operación de captura de pantalla
Archivos de temas externos
Cambio de fuente
cargando animacion
Ignora la zona.
Reconocimiento de códigos QR.
La ventana de vista previa de la imagen de la página de reconocimiento de lotes.
Reconocimiento de PDF.
Llame al navegador de imágenes local para abrir la imagen. #335
Repita la última captura de pantalla. #357
Corrección de errores: problema de compatibilidad con el reconocimiento de documentos en el sistema Windows 7.
La interfaz HTTP/línea de comando agrega la función de generación/reconocimiento de códigos QR. (#423)
Documentación de la interfaz del código QR.
Portabilidad de plataforma Linux.
Interfaz de reconocimiento de documentos HTTP.
Estas son funciones esperadas que se reservaron en las primeras etapas de desarrollo y se implementarán lentamente a largo plazo.
Sin embargo, debido a las condiciones reales durante el desarrollo, el diseño funcional puede cambiar y se pueden agregar o cancelar funciones.
Refactorice el mecanismo de complemento subyacente.
Complemento API de OCR en línea.
Complemento independiente de reconocimiento de fórmulas matemáticas.
La pestaña "Fórmula matemática" proporciona reconocimiento de fórmula matemática/renderización de látex independiente.
Verifique el mecanismo de actualización.
Módulos de posprocesamiento de texto distintos del análisis tipográfico (como conservación de números, conversión de caracteres de ancho medio, corrección de errores de texto).
Las funciones clave de la interfaz agregan métodos de activación de eventos.
OCR sin conexión basado en GPU.
Traducción de imágenes
Traducción sin conexión.
Reconocimiento de área fija.
Reconocer imágenes de tablas y enviarlas a Excel.
Sistema de registro de historia.
Compatible con MacOS/Ubuntu y otras plataformas.