Melhorando a acessibilidade com reconhecimento de tela contínuo
Bem-vindo ao VOCR
Descubra os recursos de ponta do VOCR, sua ferramenta definitiva de OCR e reconhecimento de tela com tecnologia de IA, projetada para aprimorar sua experiência de acessibilidade digital. Além do simples recurso de navegação com OCR, o VOCR se integra perfeitamente ao VoiceOver, permitindo que os usuários capturem e reconheçam facilmente o conteúdo da tela com atalhos intuitivos e personalizáveis. Com recursos como OCR em tempo real, os usuários podem monitorar e ler continuamente conteúdo ao vivo, como legendas. A funcionalidade ASK AI permite aproveitar modelos avançados de IA, incluindo OpenAI GPT, para fazer perguntas detalhadas sobre imagens e receber respostas esclarecedoras. Ele também oferece suporte a modelos de linguagem de visão local via Ollama para sua privacidade. O Explore with AI vai um passo além, analisando imagens, identificando diferentes áreas e fornecendo descrições abrangentes.
O conjunto robusto de recursos do VOCR oferece controle e precisão incomparáveis, tornando-o uma ferramenta indispensável para usuários que buscam uma solução de OCR perfeita, eficiente e altamente funcional. Esteja você navegando em aplicativos inacessíveis ou curioso sobre imagens, o VOCR permite que você faça mais com facilidade e confiança.
AVISO : USE POR SUA CONTA E RISCO!
VOCR é distribuído na esperança de que seja útil, mas SEM QUALQUER GARANTIA, expressa ou implícita, de COMERCIALIZAÇÃO ou ADEQUAÇÃO A UM DETERMINADO FIM. Consulte a Licença Pública Geral GNU para obter mais detalhes.
Download
Aqui está o link direto para baixar o VOCR v2.0.1.
Configurar
Para garantir que o VOCR funcione corretamente, é crucial seguir cada passo com precisão. A falta de uma única etapa pode impedir o funcionamento correto do VOCR.
- Após descompactar o arquivo zip baixado, mova o aplicativo para a pasta Aplicativos e execute-o.
- Confirme que o VOCR está em execução na barra de menu pressionando vo+m duas vezes.
- No Utilitário VoiceOver, na categoria Geral, marque a caixa "Permitir que o VoiceOver seja controlado com AppleScript".
- Se ativo, desligue a cortina de tela com vo+shift+f11. Observe que a cortina da tela deve estar desligada para que o aplicativo funcione corretamente.
- Oculte os recursos visuais do VoiceOver com vo+command+f11 se eles forem exibidos. Se não estiverem ocultos, elementos como o painel de legendas do VoiceOver serão reconhecidos juntamente com outros conteúdos da tela.
- Pressione comando+shift+control+w. Você deverá receber uma notificação solicitando permissão de acessibilidade. Se o VoiceOver não focar automaticamente na janela, pressione vo+f1 duas vezes para exibir a lista de aplicativos em execução no momento; a caixa de diálogo do sistema deve estar nesta lista.
- Após conceder permissão de acessibilidade, pressione command+shift+control+w novamente para receber uma notificação solicitando permissão para o VOCR fazer uma captura de tela. Se você não receber o alerta, localize a caixa de diálogo do sistema conforme descrito anteriormente.
- Se você não conseguir localizar a caixa de diálogo do sistema, vá para Configurações do sistema, Privacidade e segurança, escolha Gravação de tela e encontre o aplicativo VOCR.
- Após conceder permissão de acessibilidade, reinicie o aplicativo conforme solicitado.
- Verifique se o aplicativo está na barra de menu pressionando vo+m duas vezes.
- Pressione comando+shift+control+w. Você deverá ouvir um bipe e uma mensagem de voz dizendo "concluído".
- Agora você pode navegar pelos resultados reconhecidos usando comando+controle+setas. Consulte a seção de atalhos abaixo para obter mais informações.
- Ao navegar pelos resultados pela primeira vez, um alerta solicitará que você permita que o VOCR controle o VoiceOver para anúncios falados.
- Pressione Escape para sair do modo de navegação do VOCR e liberar atalhos de navegação.
Cursor de OCR VoiceOver
Este recurso é útil para capturar partes específicas de uma tela, como um player de vídeo em uma página da web ou imagens em redes sociais.
- Mova o cursor do VoiceOver para o elemento que deseja reconhecer.
- Pressione comando+shift+control+v.
- Na primeira vez que usar esse recurso, você receberá um alerta para permitir que o VOCR execute AppleScript.
- Após conceder permissão, pressione command+shift+control+v novamente.
OCR em tempo real
Pressione Command+Shift+Control+R após digitalizar uma janela ou usar VOCursor para iniciar ou parar o OCR em tempo real. Quando ativado, o VOCR irá verificar continuamente e reportar apenas novos conteúdos. Isso é útil para ler conteúdo ao vivo, como legendas.
Configurar modelo de IA
Você pode hospedar seu próprio modelo de linguagem de visão usando Ollama ou utilizar OpenAI GPT para fazer perguntas sobre imagens capturadas com VOCR.
Para usar o modelo OpenAI GPT:
- Compre créditos de API para sua conta.
- Crie uma chave de API OpenAI.
- Insira sua chave de API OpenAI no menu VOCR: Configurações > Mecanismo > Chave de API OpenAI.
Observação: pode levar várias horas para que sua API fique ativa após a compra de créditos.
O custo de uso do VOCR é uma estimativa. Para uso e custo oficial, consulte o Painel de uso no site da OpenAI.
Para utilizar um modelo de linguagem de visão local com Ollama:
Ollama é gratuito e privado, mas é menos preciso e requer muito poder de computação. Eu recomendo chip M1 ou posterior com memória mínima de 16 GB.
Baixe e instale o Ollama.
Baixe um modelo multimodal (linguagem de visão) executando o seguinte comando em seu terminal:
Observe que também existem modelos llava:13b
e llava:34b
, que oferecem maior precisão, mas requerem mais armazenamento, memória e poder de computação.
Você também pode experimentar um aplicativo relacionado chamado VOLlama. É um cliente de bate-papo acessível para Ollama, permitindo que você interaja facilmente com um grande modelo de linguagem de código aberto que é executado localmente em seu computador.
PERGUNTE À IA
Após a configuração do OpenAI e/ou Ollama:
- Escolha Ollama ou GPT no menu VOCR > Configurações > Motor.
- Digitalize uma janela/VOCursor ou capture uma imagem de uma câmera.
- Pressione Command+Shift+Control+A para fazer uma pergunta ao modelo selecionado sobre a imagem.
A resposta será copiada para a área de transferência para que você possa revisá-la caso a perca.
Além disso, você pode selecionar um arquivo de imagem no Finder, abrir o menu contextual com VO+Shift+M, ir em ‘Abrir com’ e escolher VOCR para fazer uma pergunta sobre a imagem.
Explore com IA
- Escolha GPT no menu VOCR > Configurações > Mecanismo.
- Forneça sua chave de API OpenAI em Menu VOCR > Configurações > Mecanismo > Chave de API OpenAI.
- Digitalize uma janela ou use VOCursor.
- Pressione Command+Shift+Control+E.
O VOCR solicitará ao GPT que analise a imagem, identifique as diversas áreas e descreva o conteúdo de cada uma. Você pode navegar pelos resultados usando os atalhos Command + Control + Arrows.
Observação: esse recurso é experimental e geralmente produz descrições imprecisas de locais e conteúdos.
Atalhos globais
Esses atalhos funcionam sempre:
- Menu VOCR: Command+Shift+Control+S
- Janela OCR: Command+Shift+Control+W
- Cursor OCR VoiceOver: Command+Shift+Control+V
- Captura de câmera: Command+Shift+Control+C
- Alternar OCR em tempo real: Command+Shift+Control+R
- Pergunte à IA: Command+Shift+Control+A
- Explorar com IA: Command+Shift+Control+E
Atalhos de navegação
Esses atalhos só funcionam quando a navegação está ativa após uma verificação:
- Mover para baixo/para cima: Command+Control+Seta para baixo/para cima
- Mover para a esquerda/direita: Command+Control+Seta para a esquerda/direita
- Caractere anterior/seguinte: Command+Shift+Control+Seta para esquerda/direita
- Ir para cima/baixo: Command+Control+Page Up/Down
- Vá para o início/fim horizontalmente: Command+Control+Home/End
- Navegação de saída: Escape
- Localização: Command+Control+L (relata as coordenadas atuais)
- Identificar objeto: Command+Control+I (identifica o objeto atual com IA quando a detecção de objeto está habilitada nas configurações)
Configurações
Acesse o menu VOCR com Command+Control+Shift+S. Este menu contém todas as configurações e operações.
- Janela de destino: permite digitalizar uma janela diferente da atual.
- Autoscan: Verifica automaticamente após clicar em um item com VO+Shift+Espaço.
- Detectar objeto: localiza objetos sem texto, como ícones.
- Usar último prompt: reutiliza o último prompt ao solicitar a IA com Command+Shift+Control+A.
- Mover mouse: move o cursor do mouse durante a navegação.
- Áudio posicional: fornece feedback de áudio conforme o cursor do mouse se move. As mudanças de frequência correspondem à localização vertical e a panorâmica do áudio corresponde à posição horizontal. Se você não ouvir o feedback de áudio, vá para Configurações > Saída de som.
- Posição de redefinição: Quando desabilitado, o cursor não será redefinido para o canto superior esquerdo após cada nova varredura.
- Iniciar no login: executa o VOCR automaticamente quando você faz login.
- Log: começa a gravar logs em VOCR.txt na pasta Documentos.
- Saída de som: Escolha um dispositivo de som para feedback posicional de áudio.
- Escolha Câmera: Selecione a câmera a ser usada para capturar uma imagem.
- Atalhos: personalize atalhos.
- Motor: Escolha entre GPT ou Ollama.
Observe que o Llama.cpp suspendeu temporariamente o suporte para o modelo de linguagem de visão em seu servidor.
Operação
Quando você abre o menu VOCR, algumas operações ficam disponíveis após uma varredura:
- Salvar última imagem
- Salvar resultado do OCR
- Atualizações
Solução de problemas
- Se você ouvir "nada encontrado", provavelmente precisará desligar a cortina da tela do VoiceOver com vo+shift+f11 ou ajustar a acessibilidade e as permissões de gravação de tela em Configurações do sistema > Privacidade e segurança.
- Se você não ouvir nada depois de usar o recurso "OCR VoiceOver Cursor", provavelmente precisará conceder permissões VOCR para: enviar eventos Apple.
Normalmente, reiniciar o VOCR e reemitir o comando aciona novamente os alertas para reaparecerem nas caixas de diálogo do sistema conforme descrito acima.
Por último, aproveite o uso do VOCR!