VOCR下載 - VOCR原始碼下載

VOCR

其他源碼

v2.1.0

下載

透過無縫螢幕辨識增強輔助功能

歡迎來到VOCR

探索 VOCR 的尖端功能，這是您的終極 OCR 和人工智慧驅動的螢幕識別工具，旨在增強您的數位無障礙體驗。除了 OCR 的簡單導航功能之外，VOCR 還與 VoiceOver 無縫集成，使用戶能夠透過直覺且可自訂的捷徑輕鬆擷取和識別螢幕內容。借助即時 OCR 等功能，使用者可以持續監控和閱讀即時內容，例如字幕。 ASK AI 功能可讓您利用先進的 AI 模型（包括 OpenAI GPT）提出有關圖像的詳細問題並獲得富有洞察力的答案。它還透過 Ollama 支援本地視覺語言模型，以保護您的隱私。透過人工智慧探索，透過分析影像、識別不同區域並提供全面的描述，更進一步。

VOCR 強大的功能套件提供了無與倫比的控制和精確度，使其成為尋求無縫、高效且功能強大的 OCR 解決方案的使用者不可或缺的工具。無論您是在瀏覽無法存取的應用程式還是對圖像感到好奇，VOCR 都可以讓您輕鬆自信地完成更多工作。

警告：使用風險自負！

分發 VOCR 的目的是希望它有用，但不提供任何有關適銷性或特定用途適用性的明示或暗示的保證。請參閱 GNU 通用公共授權以了解更多詳細資訊。

下載

這是下載 VOCR v2.0.1 的直接連結。

設定

為了確保 VOCR 正常運作，精確遵循每一步至關重要。即使缺少一步也可能導致 VOCR 無法正常運作。

解壓縮下載的 zip 檔案後，將應用程式移至「應用程式」資料夾並執行它。
按兩次 vo+m 確認 VOCR 正在功能表列中執行。
在 VoiceOver 實用工具的「常規」類別下，勾選「允許使用 AppleScript 控制 VoiceOver」複選框。
如果處於活動狀態，請使用 vo+shift+f11 關閉螢幕窗簾。請注意，螢幕窗簾必須關閉才能使應用程式正常運作。
使用 vo+command+f11 隱藏 VoiceOver 視覺效果（如果顯示）。如果不隱藏，VoiceOver 字幕面板等元素將與其他螢幕內容一起被識別。
按 command+shift+control+w。您應該會收到一條請求存取權限的通知。如果 VoiceOver 沒有自動對焦在視窗上，請按 vo+f1 兩次以顯示目前正在執行的應用程式清單；系統對話框應該在此列表中。
授予輔助功能權限後，再次按下 command+shift+control+w 即可收到請求 VOCR 截圖權限的通知。如果您沒有收到警報，請按照前面所述找到系統對話方塊。
如果找不到系統對話框，請前往“系統設定”、“隱私和安全性”，然後選擇“螢幕錄製”，然後找到 VOCR 應用程式。
授予存取權限後，根據提示重新啟動應用程式。
按兩次 vo+m 驗證應用程式是否在功能表列中。
按 command+shift+control+w。您應該會聽到一聲蜂鳴聲和語音提示「已完成」。
現在您可以使用命令+控制+箭頭導航識別的結果。有關詳細信息，請參閱下面的快捷方式部分。
第一次導航結果時，系統會發出警報，提示您允許 VOCR 控制 VoiceOver 進行語音通知。
按 Escape 鍵退出 VOCR 的導航模式並釋放導航捷徑。

OCR 旁白遊標

此功能對於捕獲螢幕的特定部分非常有用，例如網頁上的視訊播放器或社交媒體上的圖像。

將 VoiceOver 遊標移至您要識別的元素。
按 command+shift+control+v。
- 第一次使用此功能時，您將收到允許 VOCR 執行 AppleScript 的警報。
授予權限後，再按 command+shift+control+v。

即時光學字元識別

掃描視窗或使用 VOCursor 後按 Command+Shift+Control+R 可啟動或停止即時 OCR。啟動後，VOCR 將持續掃描並僅報告新內容。這對於閱讀字幕等即時內容非常有用。

設定AI模型

您可以使用 Ollama 來託管自己的視覺語言模型，或利用 OpenAI GPT 詢問有關使用 VOCR 擷取的影像的問題。

要使用 OpenAI GPT 模型：

為您的帳戶購買 API 積分。
建立 OpenAI API 金鑰。
在 VOCR 選單中輸入您的 OpenAI API 金鑰：設定 > 引擎 > OpenAI API 金鑰。

注意：購買積分後，您的 API 可能需要幾個小時才能啟動。

VOCR 的使用成本是估算值。官方的使用方式和費用請參考OpenAI網站的Usage Dashboard。

要利用 Ollama 的本地視覺語言模型：

Ollama 是免費且私密的，但它的準確性較差，並且需要大量的運算能力。我推薦 M1 晶片或更高版本，內存至少 16GB。

下載並安裝 Ollama。
透過在終端機中執行以下命令來下載多模式（視覺語言）模型：
```
 ollama pull llava
```

請注意，還有llava:13b和llava:34b模型，它們提供更高的精度，但需要更多的儲存、記憶體和運算能力。

您可能還想嘗試名為 VOLLama 的相關應用程式。它是 Ollama 的一個易於訪問的聊天用戶端，使您可以輕鬆地與在電腦上本地運行的開源大型語言模型進行互動。

詢問人工智慧

設定 OpenAI 和/或 Ollama 後：

在 VOCR 選單 > 設定 > 引擎中選擇 Ollama 或 GPT。
掃描視窗/VOCursor 或從相機擷取影像。
按 Command+Shift+Control+A 向所選模型詢問有關圖像的問題。

回覆將複製到剪貼簿，以便您可以查看，以防錯過。

您也可以在 Finder 中選擇圖像文件，使用 VO+Shift+M 調出上下文選單，前往“開啟方式”，然後選擇 VOCR 詢問有關圖像的問題。

與人工智慧一起探索

在 VOCR 選單 > 設定 > 引擎中選擇 GPT。
在 VOCR 選單 > 設定 > 引擎 > OpenAI API 金鑰中提供您的 OpenAI API 金鑰。
掃描視窗或使用 VOCursor。
按 Command+Shift+Control+E。

VOCR將要求GPT分析影像，識別各個區域，並描述每個區域的內容。您可以使用快捷鍵 Command + Control + 箭頭來導覽結果。

注意：此功能是實驗性的，通常會產生不準確的位置和內容描述。

全域快速鍵

這些快捷方式始終有效：

VOCR 選單：Command+Shift+Control+S
OCR 視窗：Command+Shift+Control+W
OCR 旁白遊標：Command+Shift+Control+V
相機捕捉：Command+Shift+Control+C
切換即時 OCR：Command+Shift+Control+R
詢問 AI：Command+Shift+Control+A
使用 AI 進行探索：Command+Shift+Control+E

導航快捷方式

這些快捷方式僅在掃描後啟動導航時才有效：

向下/向上移動：Command+Control+向下/向上箭頭
左/右移動：Command+Control+左/右箭頭
上一個/下一個字元：Command+Shift+Control+左/右箭頭
到頂部/底部：Command+Control+Page Up/Down
水平轉到開頭/結尾：Command+Control+Home/End
退出導航：退出
位置：Command+Control+L（報告目前座標）
識別物件：Command+Control+I（當設定中啟用物件偵測時，使用 AI 識別目前物件）

設定

使用 Command+Control+Shift+S 存取 VOCR 選單。此選單包含所有設定和操作。

目標視窗：允許您掃描與目前視窗不同的視窗。
自動掃描：使用 VO+Shift+Space 點選項目後自動掃描。
檢測對象：定位沒有文字的對象，例如圖示。
使用上次提示：使用 Command+Shift+Control+A 詢問 AI 時重複使用上次提示。
移動滑鼠：導航時移動滑鼠遊標。
位置音訊：當滑鼠遊標移動時提供音訊回饋。頻率變化對應於垂直位置，音頻平移對應於水平位置。如果您沒有聽到音訊回饋，請前往「設定」>「聲音輸出」。
重設位置：停用後，每次新掃描後遊標不會重設到左上角。
登入時啟動：登入時自動執行 VOCR。
日誌：開始將日誌寫入文件資料夾中的 VOCR.txt。
聲音輸出：選擇用於音訊位置回饋的聲音裝置。
選擇相機：選擇用於捕捉影像的相機。
快捷方式：自訂快捷方式。
引擎：選擇 GPT 或 Ollama。

請注意，Llama.cpp 暫時停止了對其伺服器上視覺語言模型的支援。

手術

當您開啟 VOCR 選單時，掃描後可用的操作很少：

儲存最後一張影像
保存 OCR 結果
更新

故障排除

如果您聽到“未找到任何內容”，您可能需要使用 vo+shift+f11 關閉 VoiceOver 螢幕窗簾，或在“系統設定”>“隱私和安全”中調整輔助功能和螢幕錄製權限。
如果您在使用「OCR VoiceOver Cursor」功能後沒有聽到任何聲音，您可能需要授予 VOCR 權限以：傳送 Apple 事件。

通常，重新啟動 VOCR 並重新發出命令會重新觸發警報以重新出現在系統對話方塊中，如上所述。

最後，祝您使用VOCR愉快！

展開

附加信息