Mejora de la accesibilidad con reconocimiento de pantalla perfecto
Bienvenido a VOCR
Descubra las capacidades de vanguardia de VOCR, su herramienta definitiva de reconocimiento de pantalla impulsada por IA y OCR diseñada para mejorar su experiencia de accesibilidad digital. Más allá de la simple función de navegación con OCR, VOCR se integra perfectamente con VoiceOver, lo que permite a los usuarios capturar y reconocer sin esfuerzo el contenido de la pantalla con atajos intuitivos y personalizables. Con funciones como OCR en tiempo real, los usuarios pueden monitorear y leer continuamente contenido en vivo, como subtítulos. La funcionalidad ASK AI le permite aprovechar modelos avanzados de IA, incluido OpenAI GPT, para hacer preguntas detalladas sobre imágenes y recibir respuestas detalladas. También admite modelos de lenguaje de visión local a través de Ollama para su privacidad. Explore with AI va un paso más allá al analizar imágenes, identificar diferentes áreas y proporcionar descripciones completas.
El sólido conjunto de funciones de VOCR ofrece control y precisión incomparables, lo que lo convierte en una herramienta indispensable para los usuarios que buscan una solución de OCR fluida, eficiente y altamente funcional. Ya sea que esté navegando por aplicaciones inaccesibles o tenga curiosidad por las imágenes, VOCR le permite hacer más con facilidad y confianza.
ADVERTENCIA : ¡USE BAJO SU PROPIO RIESGO!
VOCR se distribuye con la esperanza de que sea útil, pero SIN NINGUNA GARANTÍA, expresa o implícita, de COMERCIABILIDAD o IDONEIDAD PARA UN PROPÓSITO PARTICULAR. Consulte la Licencia pública general de GNU para obtener más detalles.
Descargar
Aquí está el enlace directo para descargar VOCR v2.0.1.
Configuración
Para garantizar que VOCR funcione correctamente, es fundamental seguir cada paso con precisión. Omitir incluso un paso podría impedir que el VOCR funcione correctamente.
- Después de descomprimir el archivo zip descargado, mueva la aplicación a su carpeta de Aplicaciones y ejecútela.
- Confirme que VOCR se esté ejecutando en la barra de menú presionando vo+m dos veces.
- En la Utilidad VoiceOver, en la categoría General, marque la casilla "Permitir que VoiceOver se controle con AppleScript".
- Si está activo, apague la cortina de la pantalla con vo+shift+f11. Tenga en cuenta que la cortina de la pantalla debe estar apagada para que la aplicación funcione correctamente.
- Oculte los elementos visuales de VoiceOver con vo+comando+f11 si se muestran. Si no se ocultan, elementos como el panel de subtítulos de VoiceOver se reconocerán junto con otro contenido de la pantalla.
- Presione comando+mayús+control+w. Debería recibir una notificación solicitando permiso de accesibilidad. Si VoiceOver no se enfoca automáticamente en la ventana, presione vo+f1 dos veces para mostrar la lista de aplicaciones actualmente en ejecución; el cuadro de diálogo del sistema debe estar en esta lista.
- Después de otorgar permiso de accesibilidad, presione comando+mayús+control+w nuevamente para recibir una notificación solicitando permiso para que VOCR tome una captura de pantalla. Si no recibe la alerta, localice el cuadro de diálogo del sistema como se describió anteriormente.
- Si no puede ubicar el cuadro de diálogo del sistema, vaya a Configuración del sistema, Privacidad y seguridad, luego elija Grabación de pantalla y busque la aplicación VOCR.
- Después de otorgar el permiso de accesibilidad, reinicie la aplicación cuando se le solicite.
- Verifique que la aplicación esté en la barra de menú presionando vo+m dos veces.
- Presione comando+mayús+control+w. Debería escuchar un pitido y un mensaje de voz que diga "terminado".
- Ahora puede navegar por los resultados reconocidos usando comando+control+flechas. Consulte la sección de accesos directos a continuación para obtener más información.
- Al navegar por los resultados por primera vez, una alerta le solicitará que permita que VOCR controle VoiceOver para los anuncios hablados.
- Presione Escape para salir del modo de navegación de VOCR y liberar accesos directos de navegación.
Cursor de voz en off OCR
Esta función es útil para capturar partes específicas de una pantalla, como un reproductor de video en una página web o imágenes en las redes sociales.
- Mueva el cursor de VoiceOver al elemento que desea reconocer.
- Presione comando+mayús+control+v.
- La primera vez que utilice esta función, recibirá una alerta para permitir que VOCR ejecute AppleScript.
- Después de otorgar el permiso, presione comando+mayús+control+v nuevamente.
OCR en tiempo real
Presione Comando+Mayús+Control+R después de escanear una ventana o usar VOCursor para iniciar o detener el OCR en tiempo real. Cuando se activa, VOCR escaneará e informará continuamente solo contenido nuevo. Esto es útil para leer contenido en vivo, como subtítulos.
Configurar modelo de IA
Puede alojar su propio modelo de lenguaje de visión usando Ollama o utilizar OpenAI GPT para hacer preguntas sobre imágenes capturadas con VOCR.
Para utilizar el modelo OpenAI GPT:
- Compre créditos API para su cuenta.
- Cree una clave API de OpenAI.
- Ingrese su clave API de OpenAI en el menú VOCR: Configuración > Motor > Clave API de OpenAI.
Nota: Es posible que su API tarde varias horas en activarse después de comprar créditos.
El costo de uso de VOCR es una estimación. Para conocer el uso y el costo oficiales, consulte el Panel de uso en el sitio web de OpenAI.
Para utilizar un modelo de lenguaje de visión local con Ollama:
Ollama es gratuito y privado, pero es menos preciso y requiere mucha potencia informática. Recomiendo chip M1 o posterior con memoria mínima de 16 GB.
Descarga e instala Ollama.
Descargue un modelo multimodal (visión-lenguaje) ejecutando el siguiente comando en su terminal:
Tenga en cuenta que también existen modelos llava:13b
y llava:34b
, que ofrecen mayor precisión pero requieren más almacenamiento, memoria y potencia informática.
Quizás también quieras probar una aplicación relacionada llamada VOLlama. Es un cliente de chat accesible para Ollama, que le permite interactuar fácilmente con un modelo de lenguaje grande de código abierto que se ejecuta localmente en su computadora.
PREGUNTE A LA IA
Después de configurar OpenAI y/o Ollama:
- Elija Ollama o GPT en Menú VOCR > Configuración > Motor.
- Escanee una ventana/VOCursor o capture una imagen desde una cámara.
- Presione Comando+Mayús+Control+A para hacerle una pregunta al modelo seleccionado sobre la imagen.
La respuesta se copiará en el portapapeles para que puedas revisarla en caso de que te la pierdas.
También puede seleccionar un archivo de imagen en Finder, abrir el menú contextual con VO+Shift+M, ir a "Abrir con" y elegir VOCR para hacer una pregunta sobre la imagen.
Explora con IA
- Elija GPT en el menú VOCR > Configuración > Motor.
- Proporcione su clave API de OpenAI en Menú VOCR > Configuración > Motor > Clave API de OpenAI.
- Escanee una ventana o use VOCursor.
- Presione Comando+Mayús+Control+E.
VOCR le pedirá a GPT que analice la imagen, identifique varias áreas y describa el contenido de cada una. Puedes navegar por los resultados usando los atajos Comando + Control + Flechas.
Nota: Esta función es experimental y a menudo produce descripciones inexactas de ubicaciones y contenido.
Atajos globales
Estos atajos funcionan en todo momento:
- Menú VOCR: Comando+Mayús+Control+S
- Ventana OCR: Comando+Mayús+Control+W
- Cursor de VoiceOver de OCR: Comando+Mayús+Control+V
- Captura de cámara: Comando+Mayús+Control+C
- Alternar OCR en tiempo real: Comando+Mayús+Control+R
- Pregúntale a la IA: Comando+Mayús+Control+A
- Explora con IA: Comando+Mayús+Control+E
Atajos de navegación
Estos atajos solo funcionan cuando la navegación está activa después de un escaneo:
- Mover hacia abajo/arriba: Comando+Control+Flecha abajo/arriba
- Mover hacia la izquierda/derecha: Comando+Control+Flecha izquierda/derecha
- Carácter anterior/siguiente: Comando+Mayús+Control+Flecha izquierda/derecha
- Ir arriba/abajo: Comando+Control+Re Pág/Abajo
- Ir al principio/final horizontalmente: Comando+Control+Inicio/Fin
- Salir de navegación: Escape
- Ubicación: Comando+Control+L (Informa las coordenadas actuales)
- Identificar objeto: Comando+Control+I (Identifica el objeto actual con IA cuando la detección de objetos está habilitada en la configuración)
Ajustes
Acceda al menú VOCR con Comando+Control+Mayús+S. Este menú contiene todas las configuraciones y operaciones.
- Ventana de destino: le permite escanear una ventana diferente a la actual.
- Autoescaneo: escanea automáticamente después de hacer clic en un elemento con VO+Shift+Espacio.
- Detectar objeto: localiza objetos sin texto, como iconos.
- Usar último mensaje: reutiliza el último mensaje cuando se le pregunta a AI con Comando+Mayús+Control+A.
- Mover mouse: mueve el cursor del mouse cuando navega.
- Audio posicional: proporciona información de audio a medida que se mueve el cursor del mouse. Los cambios de frecuencia corresponden a la ubicación vertical y la panorámica de audio corresponde a la posición horizontal. Si no escucha la respuesta de audio, vaya a Configuración > Salida de sonido.
- Restablecer posición: cuando está deshabilitado, el cursor no se restablecerá a la esquina superior izquierda después de cada nuevo escaneo.
- Iniciar al iniciar sesión: ejecuta VOCR automáticamente cuando inicia sesión.
- Registro: comienza a escribir registros en VOCR.txt en su carpeta Documentos.
- Salida de sonido: elija un dispositivo de sonido para la retroalimentación posicional de audio.
- Elegir cámara: seleccione la cámara que se utilizará para capturar una imagen.
- Atajos: personaliza los atajos.
- Motor: Elige entre GPT u Ollama.
Tenga en cuenta que Llama.cpp suspendió temporalmente la compatibilidad con el modelo de lenguaje de visión en su servidor.
Operación
Cuando abre el menú VOCR, hay pocas operaciones disponibles después de una exploración:
- Guardar la última imagen
- Guardar resultado de OCR
- Actualizaciones
Solución de problemas
- Si escucha "no se encontró nada", probablemente necesite desactivar la cortina de pantalla de VoiceOver con vo+shift+f11 o ajustar la accesibilidad y los permisos de grabación de pantalla en Configuración del sistema > Privacidad y seguridad.
- Si no escucha nada después de usar la función "OCR VoiceOver Cursor", probablemente necesite otorgar permisos VOCR para: enviar eventos de Apple.
Por lo general, reiniciar VOCR y volver a emitir el comando vuelve a activar las alertas para que reaparezcan en los cuadros de diálogo del sistema como se describe anteriormente.
Por último, ¡disfruta usando VOCR!