通过无缝屏幕识别增强辅助功能
欢迎来到VOCR
探索 VOCR 的尖端功能,这是您的终极 OCR 和人工智能驱动的屏幕识别工具,旨在增强您的数字无障碍体验。除了 OCR 的简单导航功能之外,VOCR 还与 VoiceOver 无缝集成,使用户能够通过直观且可自定义的快捷方式轻松捕获和识别屏幕内容。借助实时 OCR 等功能,用户可以持续监控和阅读实时内容,例如字幕。 ASK AI 功能允许您利用先进的 AI 模型(包括 OpenAI GPT)提出有关图像的详细问题并获得富有洞察力的答案。它还通过 Ollama 支持本地视觉语言模型,以保护您的隐私。通过人工智能探索,通过分析图像、识别不同区域并提供全面的描述,更进一步。
VOCR 强大的功能套件提供了无与伦比的控制和精度,使其成为寻求无缝、高效和功能强大的 OCR 解决方案的用户不可或缺的工具。无论您是在浏览无法访问的应用程序还是对图像感到好奇,VOCR 都能让您轻松自信地完成更多工作。
警告:使用风险自负!
分发 VOCR 的目的是希望它有用,但不提供任何有关适销性或特定用途适用性的明示或暗示的保证。请参阅 GNU 通用公共许可证了解更多详细信息。
下载
这是下载 VOCR v2.0.1 的直接链接。
设置
为了确保 VOCR 正常工作,精确遵循每一步至关重要。即使缺少一步也可能导致 VOCR 无法正常运行。
- 解压缩下载的 zip 文件后,将应用程序移至“应用程序”文件夹并运行它。
- 按两次 vo+m 确认 VOCR 正在菜单栏中运行。
- 在 VoiceOver 实用工具的“常规”类别下,选中“允许使用 AppleScript 控制 VoiceOver”复选框。
- 如果处于活动状态,请使用 vo+shift+f11 关闭屏幕窗帘。请注意,屏幕窗帘必须关闭才能使应用程序正常工作。
- 使用 vo+command+f11 隐藏 VoiceOver 视觉效果(如果显示)。如果不隐藏,VoiceOver 字幕面板等元素将与其他屏幕内容一起被识别。
- 按 command+shift+control+w。您应该会收到一条请求访问权限的通知。如果 VoiceOver 没有自动聚焦在窗口上,请按 vo+f1 两次以显示当前正在运行的应用程序列表;系统对话框应该在此列表中。
- 授予辅助功能权限后,再次按 command+shift+control+w 即可收到请求 VOCR 截图权限的通知。如果您没有收到警报,请按照前面所述找到系统对话框。
- 如果找不到系统对话框,请转到“系统设置”、“隐私和安全”,然后选择“屏幕录制”,然后找到 VOCR 应用程序。
- 授予访问权限后,根据提示重新启动应用程序。
- 按两次 vo+m 验证应用程序是否在菜单栏中。
- 按 command+shift+control+w。您应该听到一声蜂鸣声和语音提示“已完成”。
- 您现在可以使用命令+控制+箭头导航识别的结果。有关详细信息,请参阅下面的快捷方式部分。
- 首次导航结果时,系统会发出警报,提示您允许 VOCR 控制 VoiceOver 进行语音通知。
- 按 Escape 键退出 VOCR 的导航模式并释放导航快捷方式。
OCR 旁白光标
此功能对于捕获屏幕的特定部分非常有用,例如网页上的视频播放器或社交媒体上的图像。
- 将 VoiceOver 光标移至您要识别的元素。
- 按 command+shift+control+v。
- 第一次使用此功能时,您将收到允许 VOCR 运行 AppleScript 的警报。
- 授予权限后,再次按 command+shift+control+v。
实时光学字符识别
扫描窗口或使用 VOCursor 后按 Command+Shift+Control+R 启动或停止实时 OCR。激活后,VOCR 将持续扫描并仅报告新内容。这对于阅读字幕等实时内容很有用。
设置AI模型
您可以使用 Ollama 托管自己的视觉语言模型,或利用 OpenAI GPT 询问有关使用 VOCR 捕获的图像的问题。
要使用 OpenAI GPT 模型:
- 为您的帐户购买 API 积分。
- 创建 OpenAI API 密钥。
- 在 VOCR 菜单中输入您的 OpenAI API 密钥:设置 > 引擎 > OpenAI API 密钥。
注意:购买积分后,您的 API 可能需要几个小时才能激活。
VOCR 的使用成本是估算值。官方的使用方式和费用请参考OpenAI网站的Usage Dashboard。
要利用 Ollama 的本地视觉语言模型:
Ollama 是免费且私密的,但它的准确性较差,并且需要大量的计算能力。我推荐 M1 芯片或更高版本,内存至少 16GB。
下载并安装 Ollama。
通过在终端中执行以下命令来下载多模式(视觉语言)模型:
请注意,还有llava:13b
和llava:34b
模型,它们提供更高的精度,但需要更多的存储、内存和计算能力。
您可能还想尝试名为 VOLLama 的相关应用程序。它是 Ollama 的一个易于访问的聊天客户端,使您可以轻松地与在计算机上本地运行的开源大型语言模型进行交互。
询问人工智能
设置 OpenAI 和/或 Ollama 后:
- 在 VOCR 菜单 > 设置 > 引擎中选择 Ollama 或 GPT。
- 扫描窗口/VOCursor 或从相机捕获图像。
- 按 Command+Shift+Control+A 向所选模型询问有关图像的问题。
回复将被复制到剪贴板,以便您可以查看,以防错过。
您还可以在 Finder 中选择图像文件,使用 VO+Shift+M 调出上下文菜单,转到“打开方式”,然后选择 VOCR 询问有关图像的问题。
与人工智能一起探索
- 在 VOCR 菜单 > 设置 > 引擎中选择 GPT。
- 在 VOCR 菜单 > 设置 > 引擎 > OpenAI API 密钥中提供您的 OpenAI API 密钥。
- 扫描窗口或使用 VOCursor。
- 按 Command+Shift+Control+E。
VOCR将要求GPT分析图像,识别各个区域,并描述每个区域的内容。您可以使用快捷键 Command + Control + 箭头来导航结果。
注意:此功能是实验性的,通常会产生不准确的位置和内容描述。
全局快捷键
这些快捷方式始终有效:
- VOCR 菜单:Command+Shift+Control+S
- OCR 窗口:Command+Shift+Control+W
- OCR 旁白光标:Command+Shift+Control+V
- 相机捕捉:Command+Shift+Control+C
- 切换实时 OCR:Command+Shift+Control+R
- 询问 AI:Command+Shift+Control+A
- 使用 AI 进行探索:Command+Shift+Control+E
导航快捷方式
这些快捷方式仅在扫描后激活导航时才有效:
- 向下/向上移动:Command+Control+向下/向上箭头
- 左/右移动:Command+Control+左/右箭头
- 上一个/下一个字符:Command+Shift+Control+左/右箭头
- 转到顶部/底部:Command+Control+Page Up/Down
- 水平转到开头/结尾:Command+Control+Home/End
- 退出导航:退出
- 位置:Command+Control+L(报告当前坐标)
- 识别对象:Command+Control+I(当在设置中启用对象检测时,使用 AI 识别当前对象)
设置
使用 Command+Control+Shift+S 访问 VOCR 菜单。该菜单包含所有设置和操作。
- 目标窗口:允许您扫描与当前窗口不同的窗口。
- 自动扫描:使用 VO+Shift+Space 单击项目后自动扫描。
- 检测对象:定位没有文本的对象,例如图标。
- 使用上次提示:使用 Command+Shift+Control+A 询问 AI 时重复使用上次提示。
- 移动鼠标:导航时移动鼠标光标。
- 位置音频:当鼠标光标移动时提供音频反馈。频率变化对应于垂直位置,音频平移对应于水平位置。如果您没有听到音频反馈,请转至“设置”>“声音输出”。
- 重置位置:禁用后,每次新扫描后光标不会重置到左上角。
- 登录时启动:登录时自动运行 VOCR。
- 日志:开始将日志写入文档文件夹中的 VOCR.txt。
- 声音输出:选择用于音频位置反馈的声音设备。
- 选择相机:选择用于捕获图像的相机。
- 快捷方式:自定义快捷方式。
- 引擎:选择 GPT 或 Ollama。
请注意,Llama.cpp 暂时停止了对其服务器上视觉语言模型的支持。
手术
当您打开 VOCR 菜单时,扫描后可用的操作很少:
故障排除
- 如果您听到“未找到任何内容”,您可能需要使用 vo+shift+f11 关闭 VoiceOver 屏幕窗帘,或在“系统设置”>“隐私和安全”中调整辅助功能和屏幕录制权限。
- 如果您在使用“OCR VoiceOver Cursor”功能后没有听到任何声音,您可能需要授予 VOCR 权限以:发送 Apple 事件。
通常,重新启动 VOCR 并重新发出命令会重新触发警报以重新出现在系统对话框中,如上所述。
最后,祝您使用VOCR愉快!