透過無縫螢幕辨識增強輔助功能
歡迎來到VOCR
探索 VOCR 的尖端功能,這是您的終極 OCR 和人工智慧驅動的螢幕識別工具,旨在增強您的數位無障礙體驗。除了 OCR 的簡單導航功能之外,VOCR 還與 VoiceOver 無縫集成,使用戶能夠透過直覺且可自訂的捷徑輕鬆擷取和識別螢幕內容。借助即時 OCR 等功能,使用者可以持續監控和閱讀即時內容,例如字幕。 ASK AI 功能可讓您利用先進的 AI 模型(包括 OpenAI GPT)提出有關圖像的詳細問題並獲得富有洞察力的答案。它還透過 Ollama 支援本地視覺語言模型,以保護您的隱私。透過人工智慧探索,透過分析影像、識別不同區域並提供全面的描述,更進一步。
VOCR 強大的功能套件提供了無與倫比的控制和精確度,使其成為尋求無縫、高效且功能強大的 OCR 解決方案的使用者不可或缺的工具。無論您是在瀏覽無法存取的應用程式還是對圖像感到好奇,VOCR 都能讓您輕鬆自信地完成更多工作。
警告:使用風險自負!
分發 VOCR 的目的是希望它有用,但不提供任何有關適銷性或特定用途適用性的明示或暗示的保證。請參閱 GNU 通用公共授權以了解更多詳細資訊。
下載
這是下載 VOCR v2.0.1 的直接連結。
設定
為了確保 VOCR 正常運作,精確遵循每一步至關重要。即使缺少一步也可能導致 VOCR 無法正常運作。
- 解壓縮下載的 zip 檔案後,將應用程式移至「應用程式」資料夾並執行它。
- 按兩次 vo+m 確認 VOCR 正在功能表列中執行。
- 在 VoiceOver 實用工具的「常規」類別下,勾選「允許使用 AppleScript 控制 VoiceOver」複選框。
- 如果處於活動狀態,請使用 vo+shift+f11 關閉螢幕窗簾。請注意,螢幕窗簾必須關閉才能使應用程式正常運作。
- 使用 vo+command+f11 隱藏 VoiceOver 視覺效果(如果顯示)。如果不隱藏,VoiceOver 字幕面板等元素將與其他螢幕內容一起被識別。
- 按 command+shift+control+w。您應該會收到一條請求存取權限的通知。如果 VoiceOver 沒有自動對焦在視窗上,請按 vo+f1 兩次以顯示目前正在執行的應用程式清單;系統對話框應該在此列表中。
- 授予輔助功能權限後,再次按下 command+shift+control+w 即可收到請求 VOCR 截圖權限的通知。如果您沒有收到警報,請按照前面所述找到系統對話方塊。
- 如果找不到系統對話框,請前往“系統設定”、“隱私和安全性”,然後選擇“螢幕錄製”,然後找到 VOCR 應用程式。
- 授予存取權限後,根據提示重新啟動應用程式。
- 按兩次 vo+m 驗證應用程式是否在功能表列中。
- 按 command+shift+control+w。您應該會聽到一聲蜂鳴聲和語音提示「已完成」。
- 現在您可以使用命令+控制+箭頭導航識別的結果。有關詳細信息,請參閱下面的快捷方式部分。
- 第一次導航結果時,系統會發出警報,提示您允許 VOCR 控制 VoiceOver 進行語音通知。
- 按 Escape 鍵退出 VOCR 的導航模式並釋放導航捷徑。
OCR 旁白遊標
此功能對於捕獲螢幕的特定部分非常有用,例如網頁上的視訊播放器或社交媒體上的圖像。
- 將 VoiceOver 遊標移至您要識別的元素。
- 按 command+shift+control+v。
- 第一次使用此功能時,您將收到允許 VOCR 執行 AppleScript 的警報。
- 授予權限後,再按 command+shift+control+v。
即時光學字元識別
掃描視窗或使用 VOCursor 後按 Command+Shift+Control+R 啟動或停止即時 OCR。啟動後,VOCR 將持續掃描並僅報告新內容。這對於閱讀字幕等即時內容很有用。
設定AI模型
您可以使用 Ollama 來託管自己的視覺語言模型,或利用 OpenAI GPT 詢問有關使用 VOCR 擷取的影像的問題。
要使用 OpenAI GPT 模型:
- 為您的帳戶購買 API 積分。
- 建立 OpenAI API 金鑰。
- 在 VOCR 選單中輸入您的 OpenAI API 金鑰:設定 > 引擎 > OpenAI API 金鑰。
注意:購買積分後,您的 API 可能需要幾個小時才能啟動。
VOCR 的使用成本是估算值。官方的使用方式和費用請參考OpenAI網站的Usage Dashboard。
要利用 Ollama 的本地視覺語言模型:
Ollama 是免費且私密的,但它的準確性較差,並且需要大量的運算能力。我推薦 M1 晶片或更高版本,內存至少 16GB。
下載並安裝 Ollama。
透過在終端機中執行以下命令來下載多模式(視覺語言)模型:
請注意,還有llava:13b
和llava:34b
模型,它們提供更高的精度,但需要更多的儲存、記憶體和運算能力。
您可能還想嘗試名為 VOLLama 的相關應用程式。它是 Ollama 的一個易於訪問的聊天用戶端,使您可以輕鬆地與在電腦上本地運行的開源大型語言模型進行互動。
詢問人工智慧
設定 OpenAI 和/或 Ollama 後:
- 在 VOCR 選單 > 設定 > 引擎中選擇 Ollama 或 GPT。
- 掃描視窗/VOCursor 或從相機擷取影像。
- 按 Command+Shift+Control+A 向所選模型詢問有關圖像的問題。
回覆將複製到剪貼簿,以便您可以查看,以防錯過。
您也可以在 Finder 中選擇圖像文件,使用 VO+Shift+M 調出上下文選單,前往“開啟方式”,然後選擇 VOCR 詢問有關圖像的問題。
與人工智慧一起探索
- 在 VOCR 選單 > 設定 > 引擎中選擇 GPT。
- 在 VOCR 選單 > 設定 > 引擎 > OpenAI API 金鑰中提供您的 OpenAI API 金鑰。
- 掃描視窗或使用 VOCursor。
- 按 Command+Shift+Control+E。
VOCR將要求GPT分析影像,識別各個區域,並描述每個區域的內容。您可以使用快捷鍵 Command + Control + 箭頭來導覽結果。
注意:此功能是實驗性的,通常會產生不準確的位置和內容描述。
全域快速鍵
這些快捷方式始終有效:
- VOCR 選單:Command+Shift+Control+S
- OCR 視窗:Command+Shift+Control+W
- OCR 旁白遊標:Command+Shift+Control+V
- 相機捕捉:Command+Shift+Control+C
- 切換即時 OCR:Command+Shift+Control+R
- 詢問 AI:Command+Shift+Control+A
- 使用 AI 進行探索:Command+Shift+Control+E
導航快捷方式
這些快捷方式僅在掃描後啟動導航時才有效:
- 向下/向上移動:Command+Control+向下/向上箭頭
- 左/右移動:Command+Control+左/右箭頭
- 上一個/下一個字元:Command+Shift+Control+左/右箭頭
- 到頂部/底部:Command+Control+Page Up/Down
- 水平轉到開頭/結尾:Command+Control+Home/End
- 退出導航:退出
- 位置:Command+Control+L(報告目前座標)
- 識別物件:Command+Control+I(當設定中啟用物件偵測時,使用 AI 識別目前物件)
設定
使用 Command+Control+Shift+S 存取 VOCR 選單。此選單包含所有設定和操作。
- 目標視窗:允許您掃描與目前視窗不同的視窗。
- 自動掃描:使用 VO+Shift+Space 點選項目後自動掃描。
- 檢測對象:定位沒有文字的對象,例如圖示。
- 使用上次提示:使用 Command+Shift+Control+A 詢問 AI 時重複使用上次提示。
- 移動滑鼠:導航時移動滑鼠遊標。
- 位置音訊:當滑鼠遊標移動時提供音訊回饋。頻率變化對應於垂直位置,音頻平移對應於水平位置。如果您沒有聽到音訊回饋,請前往「設定」>「聲音輸出」。
- 重設位置:停用後,每次新掃描後遊標不會重設到左上角。
- 登入時啟動:登入時自動執行 VOCR。
- 日誌:開始將日誌寫入文件資料夾中的 VOCR.txt。
- 聲音輸出:選擇用於音訊位置回饋的聲音裝置。
- 選擇相機:選擇用於捕捉影像的相機。
- 快捷方式:自訂快捷方式。
- 引擎:選擇 GPT 或 Ollama。
請注意,Llama.cpp 暫時停止了對其伺服器上視覺語言模型的支援。
手術
當您開啟 VOCR 選單時,掃描後可用的操作很少:
故障排除
- 如果您聽到“未找到任何內容”,您可能需要使用 vo+shift+f11 關閉 VoiceOver 螢幕窗簾,或在“系統設定”>“隱私和安全”中調整輔助功能和螢幕錄製權限。
- 如果您在使用「OCR VoiceOver Cursor」功能後沒有聽到任何聲音,您可能需要授予 VOCR 權限以:傳送 Apple 事件。
通常,重新啟動 VOCR 並重新發出命令會重新觸發警報以重新出現在系統對話方塊中,如上所述。
最後,祝您使用VOCR愉快!