Chinês • Inglês • Japonês
Software de OCR off-line gratuito, de código aberto e compatível com lote
Aplicável a Windows7 x64, Linux x64
Gratuito : todo o código deste projeto é de código aberto e totalmente gratuito.
Conveniente : descompacte e use, execute offline, sem necessidade de rede.
Eficiente : Ele vem com um mecanismo de OCR off-line altamente eficiente e bibliotecas integradas de reconhecimento de vários idiomas.
Flexível : Suporta métodos de chamada externos, como linha de comando e interface HTTP.
Funções : OCR de captura de tela / OCR em lote / reconhecimento de PDF / código QR / reconhecimento de fórmula
Reconhecimento de captura de tela
Análise de composição - identifique diferentes tipos de tipos e produza o texto na ordem correta
Identificação do lote
Ignorar área - exclui o texto da marca d'água da captura de tela
O código QR suporta digitalização ou geração de imagens de código QR
O reconhecimento de documentos extrai texto de digitalizações de PDF ou os converte em PDFs pesquisáveis em duas camadas
Configurações globais
Chamada de linha de comando
Interface HTTP
Construa o projeto (Windows, Linux)
Desenvolvedores, por favor, não deixem de ler Projetos de Construção.
Os links de lançamento a seguir são mantidos por um longo tempo e fornecem downloads de versões estáveis.
Lanzoul Cloud https://hiroi-sora.lanzoul.com/s/umi-ocr (recomendação doméstica, sem registro/velocidade ilimitada)
GitHub https://github.com/hiroi-sora/Umi-OCR/releases/latest
Fonte Forge https://sourceforge.net/projects/umi-ocr
Scoop é um programa de instalação de linha de comando no Windows que pode gerenciar facilmente vários aplicativos. Você pode instalar o Scoop primeiro e depois usar as seguintes instruções para instalar Umi-OCR
:
Adicionar balde extras
:
scoop bucket add extras
(Opcional 1) Instale o Umi-OCR (vem com mecanismo Rapid-OCR
, boa compatibilidade):
scoop install extras/umi-ocr
(Opcional 2) Instale o Umi-OCR (vem com mecanismo Paddle-OCR
, um pouco mais rápido):
scoop install extras/umi-ocr-paddle
Não instale os dois ao mesmo tempo, os atalhos podem ser substituídos. Mas você pode importar plug-ins adicionais e mudar para diferentes mecanismos de OCR a qualquer momento.
O pacote de lançamento do software é baixado como .7z
ou um pacote de extração automática .7z.exe
. Pacotes de extração automática podem descompactar arquivos em computadores que não possuem software de compactação instalado.
Este software não requer instalação. Após descompactar, clique em Umi-OCR.exe
para iniciar o programa.
Se você encontrar algum problema, envie um problema e tentarei o meu melhor para ajudá-lo.
A interface suportada pelo Umi-OCR está em vários idiomas. Ao abrir o software pela primeira vez, o idioma será alterado automaticamente de acordo com as configurações do sistema do seu computador.
Se você precisar mudar o idioma manualmente, consulte a figura abaixo,全局设置
→语言/Language
.
Umi-OCR v2 consiste em uma série de guias flexíveis e fáceis de usar. Você pode abrir as guias necessárias de acordo com sua preferência.
Você pode mudar a janela para o topo no canto superior esquerdo da barra de guias. As guias podem ser bloqueadas no canto superior direito para evitar o fechamento acidental das guias durante o uso diário.
OCR de captura de tela : depois de abrir esta página, você pode usar teclas de atalho para evocar a captura de tela e reconhecer o texto na imagem.
Na barra de visualização da imagem à esquerda, você pode selecionar e copiar diretamente com o mouse.
Na coluna de registro de identificação à direita, o texto pode ser editado e vários registros podem ser selecionados e copiados.
Ele também suporta copiar imagens em outro lugar e colá-las no Umi-OCR para reconhecimento.
Sobre a função de reconhecimento de fórmula
Sobre o pós-processamento de texto OCR - solução de análise de composição : A composição e a ordem dos resultados do OCR podem ser organizadas para tornar o texto mais adequado para leitura e uso. Plano padrão:
多栏-按自然段换行
: adequado para a maioria dos cenários, reconhece automaticamente o layout de várias colunas e quebra as linhas de acordo com as regras de parágrafo naturais.
多栏-总是换行
: cada instrução é agrupada.
多栏-无换行
: força todas as instruções a serem mescladas na mesma linha.
单栏-按自然段换行
/总是换行
/无换行
: semelhante ao acima, mas não distingue entre layouts de múltiplas colunas.
单栏-保留缩进
: adequado para analisar capturas de tela de código, mantendo o recuo no início da linha e os espaços na linha.
不做处理
: a saída original do mecanismo de OCR, com quebras de linha para cada instrução por padrão.
As soluções acima podem lidar automaticamente com a composição tipográfica horizontal e vertical (da direita para a esquerda). (O texto vertical também requer o suporte do próprio mecanismo de OCR)
OCR em lote : esta página é usada para importar imagens locais em lote para reconhecimento.
Formatos suportados: jpg, jpe, jpeg, jfif, png, webp, bmp, tif, tiff
.
Formatos suportados para salvar resultados de reconhecimento: txt, jsonl, md, csv(Excel)
.
Assim como o OCR de captura de tela, ele suporta a função文本后处理
para organizar o layout e a ordem do texto OCR.
Não há limite máximo de número e centenas de imagens podem ser importadas de uma só vez para tarefas.
Suporta desligamento/espera automático após a conclusão da tarefa.
Se você deseja reconhecer imagens longas ou grandes com pixels grandes, ajuste: configurações da página → reconhecimento de texto → limitar o comprimento do lado da imagem → [Aumentar valor] .
Possui funcionalidade especial忽略区域
.
Sobre o pós-processamento de texto OCR - Ignorar áreas : Uma função especial no OCR em lote, adequada para excluir texto indesejado em imagens.
O editor da área ignorada pode ser inserido nas configurações da coluna direita da página de identificação do lote.
Como no exemplo acima, existem várias marcas d’água/LOGOs nos cantos superior e inferior direito da imagem. Se essas imagens forem reconhecidas em lotes, as marcas d’água interferirão nos resultados do reconhecimento.
Mantenha pressionado o botão direito e desenhe várias caixas retangulares. O texto nessas áreas será ignorado na missão.
Tente fazer com que a moldura retangular seja o maior possível para cobrir completamente todos os locais possíveis da marca d'água.
Observe que apenas todo o bloco de texto dentro da caixa de região para ignorar (não caracteres individuais) será ignorado. Conforme mostrado na figura abaixo, o retângulo escuro com borda amarela é uma área ignorada. Então apenas key_mouse
será ignorado. Os dois blocos de texto pubsub_connector.py
e pubsub_service.py
são mantidos.
Identificação do documento :
Formatos suportados: pdf, xps, epub, mobi, fb2, cbz
.
Execute OCR em documentos digitalizados ou extraia o texto original. Pode ser exportado como um PDF pesquisável em duas camadas .
Suporta a configuração de áreas ignoradas , que podem ser usadas para excluir texto de cabeçalho e rodapé.
Pode ser configurado para desligar/hibernar automaticamente após a conclusão da tarefa.
Código de digitalização :
Faça uma captura de tela/cole/arraste para uma imagem local e leia o código QR e o código de barras nela.
Suporta vários códigos para uma imagem.
Suporta 19 protocolos, como segue:
Aztec
, Codabar
, Code128
, Code39
, Code93
, DataBar
, DataBarExpanded
, DataMatrix
, EAN13
, EAN8
, ITF
, LinearCodes
, MatrixCodes
, MaxiCode
, MicroQRCode
, PDF417
, QRCode
, UPCA
, UPCE
Gerar código :
Insira o texto e gere uma imagem de código QR.
Suporta 19 protocolos e níveis de correção de erros e outros parâmetros.
Configurações globais : Aqui você pode ajustar os parâmetros globais do software. As funções comumente usadas são as seguintes:
Adicione atalhos ou defina o início automático na inicialização com um clique.
Alterar o idioma da interface. Umi suporta chinês tradicional, inglês, japonês e outros idiomas.
Mude o tema da interface. Umi tem vários temas claros/escuros.
Ajuste o tamanho e a fonte do texto da interface .
Mude o plug-in de OCR.
Renderizador : A interface do software suporta renderização acelerada por placa gráfica por padrão. Se as capturas de tela tremerem e a IU estiver desalinhada em sua máquina, ajuste界面和外观
→渲染器
, tente mudar para um esquema de renderização diferente ou desative a aceleração de hardware.
Manual de linha de comando
Manual de interface HTTP
Agradecimentos aos seguintes tradutores que contribuíram com o trabalho de tradução de localização para o Umi-OCR: (listados sem ordem específica)
tradutor | Idioma de contribuição |
---|---|
Prumo | Inglês, chinês tradicional, japonês |
Qingzheng Gao | Inglês, chinês tradicional |
Weng, Chia Ling | Inglês, chinês tradicional |
linzow | Inglês, chinês tradicional |
Eric Guo | Inglês |
steven0081 | Inglês |
Marcos eu | Inglês |
ameixa7x | Chinês Tradicional |
hugoalh | Chinês Tradicional |
ドコモ光 | japonês |
Yang Peng | Português |
Se houver informações incorretas ou falta de pessoal, responda nesta discussão.
Este projeto utiliza a plataforma online Weblate: Umi-OCR para colaboração em tradução e localização. Convidamos qualquer usuário a participar do trabalho de tradução, você pode revisar, complementar os idiomas existentes ou adicionar novos idiomas.
Armazém principal?
Biblioteca de plug-ins
Tempo de execução do Windows
Tempo de execução do Linux
O sufixo **
indica o conteúdo contido neste armazém (主仓库
).
Umi-OCR ├─ Umi-OCR.exe ├─ umi-ocr.sh └─ UmiOCR-data ├─ main.py ** ├─ version.py ** ├─ qt_res ** │ └─ 项目qt资源,包括图标和qml源码 ├─ py_src ** │ └─ 项目python源码 ├─ plugins │ └─ 插件 └─ i18n ** └─ 翻译文件
Mecanismos de OCR offline suportados:
PaddleOCR-json
RapidOCR-json
Estrutura do ambiente em execução:
Versão personalizada PyStand
Consulte as instruções no início do changelog.
Vá para o seguinte warehouse para concluir a implantação do ambiente de desenvolvimento/operação da plataforma correspondente.
Windows
Linux
O projeto Umi-OCR é desenvolvido e mantido principalmente pelo autor hiroi-sora nas horas vagas. Se você gosta deste software, por favor patrocine-o.
Os usuários domésticos podem patrocinar autores através do iPower.
Quadro de guia.
Controlador de API OCR.
Controlador de tarefas de OCR.
O gerenciador de temas suporta a alternância de temas claros/escuros.
Implementar OCR em lote .
Implementar OCR de captura de tela .
Mecanismo de tecla de atalho.
Menu da bandeja do sistema.
Pós-processamento de bloco de texto (otimização de composição).
Limpeza de memória do motor.
A interface do software está disponível em vários idiomas.
Modo de linha de comando.
Compatível com Win7.
Formato de saída Excel (csv).
Esc
interrompe a operação de captura de tela
Arquivos de tema externos
Troca de fonte
carregando animação
Ignore a área.
Reconhecimento de código QR.
A janela de visualização da imagem da página de reconhecimento de lote.
Reconhecimento de PDF.
Chame o navegador de imagens local para abrir a imagem. #335
Repita a última captura de tela. #357
Correção de bug: problema de compatibilidade de reconhecimento de documentos no sistema Windows 7.
A interface HTTP/linha de comando adiciona função de reconhecimento/geração de código QR. (#423)
Documentação da interface do código QR.
Portabilidade da plataforma Linux.
Interface de reconhecimento de documentos HTTP.
Estas são funções esperadas. As interfaces foram reservadas nos estágios iniciais de desenvolvimento e serão implementadas lentamente no longo prazo.
No entanto, devido às condições reais durante o desenvolvimento, o design funcional pode ser alterado e funções podem ser adicionadas ou canceladas.
Refatore o mecanismo de plug-in subjacente.
Plug-in de API de OCR on-line.
Plug-in independente de reconhecimento de fórmulas matemáticas.
A guia "Fórmula Matemática" fornece reconhecimento independente de fórmulas matemáticas/renderização de látex.
Verifique o mecanismo de atualização.
Módulos de pós-processamento de texto que não sejam análise de composição tipográfica (como preservação de números, conversão de caracteres de meia largura, correção de erros de texto).
As principais funções da interface adicionam métodos de acionamento de eventos.
OCR offline baseado em GPU.
Tradução de imagens
Tradução off-line.
Reconhecimento de área fixa.
Reconheça imagens de tabelas e envie-as para o Excel.
Sistema de registro de histórico.
Compatível com MacOS/Ubuntu e outras plataformas.