シームレスな画面認識によるアクセシビリティの向上
VOCR へようこそ
デジタル アクセシビリティ エクスペリエンスを強化するために設計された、究極の OCR および AI を活用した画面認識ツールである VOCR の最先端の機能をご覧ください。 OCR によるシンプルなナビゲーション機能を超えて、VOCR は VoiceOver とシームレスに統合され、ユーザーが直感的でカスタマイズ可能なショートカットを使用して画面コンテンツを簡単にキャプチャして認識できるようにします。リアルタイム OCR などの機能を使用すると、ユーザーは字幕などのライブ コンテンツを継続的に監視して読み取ることができます。 ASK AI 機能を使用すると、OpenAI GPT などの高度な AI モデルを活用して、画像に関する詳細な質問をし、洞察に満ちた回答を得ることができます。また、プライバシーを保護するために、Ollama を介したローカル ビジョン言語モデルもサポートしています。 Explore with AI は、画像を分析し、さまざまな領域を識別し、包括的な説明を提供することで、さらに一歩進んでいます。
VOCR の堅牢な機能スイートは比類のない制御と精度を提供し、シームレスで効率的で高機能な OCR ソリューションを求めるユーザーにとって不可欠なツールとなっています。アクセスできないアプリケーションを操作している場合でも、画像に興味がある場合でも、VOCR を使用すると、より簡単かつ自信を持って作業を行うことができます。
警告: ご自身の責任で使用してください。
VOCR は役立つことを期待して配布されますが、商品性や特定の目的への適合性については、明示的か黙示的かを問わず、いかなる保証もありません。詳細については、GNU 一般公衆利用許諾書を参照してください。
ダウンロード
VOCR v2.0.1 をダウンロードするための直接リンクは次のとおりです。
設定
VOCR が適切に動作することを確認するには、すべての手順を正確に実行することが重要です。 1 ステップでもミスすると、VOCR が正しく機能しなくなる可能性があります。
- ダウンロードした zip ファイルを解凍した後、アプリケーションをアプリケーション フォルダーに移動して実行します。
- vo+m を 2 回押して、メニュー バーで VOCR が実行されていることを確認します。
- VoiceOver ユーティリティの [全般] カテゴリで、[AppleScript による VoiceOver の制御を許可する] チェックボックスをオンにします。
- アクティブな場合は、vo+shift+f11 でスクリーン カーテンをオフにします。アプリが正常に動作するには、スクリーン カーテンがオフになっている必要があることに注意してください。
- VoiceOver ビジュアルが表示されている場合は、vo+command+f11 を押して非表示にします。非表示にしない場合、VoiceOver キャプション パネルなどの要素が他の画面コンテンツとともに認識されます。
- command+shift+control+w を押します。アクセシビリティ許可を求める通知を受け取るはずです。 VoiceOver が自動的にウィンドウにフォーカスしない場合は、vo+f1 を 2 回押して、現在実行中のアプリのリストを表示します。システム ダイアログがこのリストに含まれている必要があります。
- アクセシビリティ許可を付与した後、もう一度 command+shift+control+w を押して、VOCR がスクリーンショットを撮る許可を要求する通知を受け取ります。アラートを受信しない場合は、前述したようにシステム ダイアログを見つけます。
- システム ダイアログが見つからない場合は、[システム設定]、[プライバシーとセキュリティ] に移動し、[画面録画] を選択して、VOCR アプリを見つけます。
- アクセシビリティ権限を付与した後、プロンプトに従ってアプリを再起動します。
- vo+m を 2 回押して、アプリがメニュー バーにあることを確認します。
- command+shift+control+w を押します。ビープ音と「完了」という音声プロンプトが聞こえます。
- コマンド + コントロール + 矢印を使用して、認識された結果をナビゲートできるようになりました。詳細については、以下のショートカットのセクションを参照してください。
- 初めて結果をナビゲートするときは、音声アナウンスの VoiceOver を VOCR で制御できるようにするよう求めるアラートが表示されます。
- Esc キーを押して VOCR のナビゲーション モードを終了し、ナビゲーション ショートカットを解放します。
OCR VoiceOver カーソル
この機能は、Web ページ上のビデオ プレーヤーやソーシャル メディア上の画像など、画面の特定の部分をキャプチャする場合に便利です。
- VoiceOver カーソルを認識したい要素に移動します。
- command+shift+control+v を押します。
- この機能を初めて使用するときは、VOCR による AppleScript の実行を許可するためのアラートが表示されます。
- 許可を与えた後、もう一度 command+shift+control+v を押します。
リアルタイムOCR
ウィンドウをスキャンした後、または VOCursor を使用してリアルタイム OCR を開始または停止した後、Command+Shift+Control+R を押します。有効にすると、VOCR は継続的にスキャンし、新しいコンテンツのみを報告します。これは、字幕などのライブ コンテンツを読むのに役立ちます。
AIモデルのセットアップ
Ollama を使用して独自の視覚言語モデルをホストしたり、OpenAI GPT を利用して VOCR でキャプチャされた画像について質問したりできます。
OpenAI GPT モデルを使用するには:
- アカウントの API クレジットを購入します。
- OpenAI API キーを作成します。
- VOCR メニューに OpenAI API キーを入力します: [設定] > [エンジン] > [OpenAI API キー]。
注: クレジットを購入した後、API がアクティブになるまでに数時間かかる場合があります。
VOCRの利用料金は概算です。正式な使用方法とコストについては、OpenAI Web サイトの使用状況ダッシュボードを参照してください。
Ollama でローカル ビジョン言語モデルを利用するには:
Ollama は無料で非公開ですが、精度が低く、多くの計算能力を必要とします。 M1 チップ以降、最低 16GB メモリを推奨します。
Ollamaをダウンロードしてインストールします。
ターミナルで次のコマンドを実行して、マルチモーダル (ビジョン言語) モデルをダウンロードします。
llava:13b
およびllava:34b
モデルもあることに注意してください。これらはより高い精度を提供しますが、より多くのストレージ、メモリ、および計算能力を必要とします。
VOLlama という関連アプリを試してみることもできます。これは、Ollama のアクセス可能なチャット クライアントであり、コンピューター上でローカルに実行されるオープンソースの大規模言語モデルと簡単に対話できるようになります。
AIに聞く
OpenAI および/または Ollama のセットアップ後:
- VOCR メニュー > 設定 > エンジンで Ollama または GPT を選択します。
- ウィンドウ/VOCursor をスキャンするか、カメラから画像をキャプチャします。
- Command+Shift+Control+A を押して、選択したモデルに画像に関する質問をします。
回答はクリップボードにコピーされるので、見逃した場合に確認できます。
また、Finder で画像ファイルを選択し、VO+Shift+M でコンテキスト メニューを表示し、[プログラムから開く] に移動して、VOCR を選択して画像について質問することもできます。
AI で探索する
- VOCR メニュー > 設定 > エンジンで GPT を選択します。
- VOCR メニュー > 設定 > エンジン > OpenAI API キーで OpenAI API キーを指定します。
- ウィンドウをスキャンするか、VOCursor を使用します。
- Command+Shift+Control+E を押します。
VOCR は GPT に画像の分析、さまざまな領域の特定、およびそれぞれの内容の説明を依頼します。 Command + Control + 矢印のショートカットを使用して結果を移動できます。
注: この機能は実験的なものであり、多くの場合、場所やコンテンツについて不正確な説明が生成されます。
グローバルショートカット
これらのショートカットは常に機能します。
- VOCR メニュー: Command+Shift+Control+S
- OCR ウィンドウ: Command+Shift+Control+W
- OCR VoiceOver カーソル: Command+Shift+Control+V
- カメラキャプチャ: Command+Shift+Control+C
- リアルタイム OCR を切り替える: Command+Shift+Control+R
- AI に質問する: Command+Shift+Control+A
- AI で探索: Command+Shift+Control+E
ナビゲーションショートカット
これらのショートカットは、スキャン後にナビゲーションがアクティブになっている場合にのみ機能します。
- 下/上に移動: Command+Control+下/上矢印
- 左/右に移動: Command+Control+左/右矢印
- 前/次の文字: Command+Shift+Control+左/右矢印
- 上/下に移動: Command+Control+Page Up/Down
- 水平方向に先頭/末尾に移動: Command+Control+Home/End
- ナビゲーションを終了: エスケープ
- 場所: Command+Control+L (現在の座標を報告)
- オブジェクトの識別: Command+Control+I (設定でオブジェクト検出が有効になっている場合、AI で現在のオブジェクトを識別します)
設定
Command+Control+Shift+S を押して VOCR メニューにアクセスします。このメニューにはすべての設定と操作が含まれています。
- ターゲット ウィンドウ: 現在のウィンドウとは異なるウィンドウをスキャンできます。
- 自動スキャン: VO+Shift+Space で項目をクリックした後、自動的にスキャンします。
- オブジェクトの検出: アイコンなどのテキストのないオブジェクトを検出します。
- 最後のプロンプトを使用: Command+Shift+Control+A を使用して AI に質問するときに、最後のプロンプトを再利用します。
- マウスの移動: ナビゲーション時にマウス カーソルを移動します。
- 位置オーディオ: マウス カーソルの移動に応じてオーディオ フィードバックを提供します。周波数の変化は垂直位置に対応し、オーディオのパンニングは水平位置に対応します。音声フィードバックが聞こえない場合は、[設定] > [サウンド出力] に移動します。
- 位置のリセット: 無効にすると、新しいスキャンのたびにカーソルが左上隅にリセットされません。
- ログイン時に起動: ログイン時に VOCR を自動的に実行します。
- ログ: ドキュメント フォルダー内の VOCR.txt へのログの書き込みを開始します。
- サウンド出力: オーディオ位置フィードバック用のサウンド デバイスを選択します。
- カメラの選択: 画像のキャプチャに使用するカメラを選択します。
- ショートカット: ショートカットをカスタマイズします。
- エンジン: GPT または Ollama から選択します。
Llama.cpp はサーバー上のビジョン言語モデルのサポートを一時的に停止したことに注意してください。
手術
VOCR メニューを開くと、スキャン後にいくつかの操作が可能になります。
トラブルシューティング
- 「何も見つかりません」と聞こえる場合は、vo+shift+f11 キーで VoiceOver 画面カーテンをオフにするか、システム設定 > プライバシーとセキュリティでアクセシビリティと画面録画の許可を調整する必要がある可能性があります。
- 「OCR VoiceOver Cursor」機能を使用した後に何も聞こえない場合は、おそらく次のことを行うための VOCR 権限を付与する必要があります。 Apple Event を送信する。
通常、VOCR を再起動してコマンドを再発行すると、前述のようにアラートが再トリガーされ、システム ダイアログに再度表示されます。
最後にVOCRをお楽しみください!