원활한 화면 인식으로 접근성 향상
VOCR에 오신 것을 환영합니다
디지털 접근성 경험을 향상시키도록 설계된 최고의 OCR 및 AI 기반 화면 인식 도구인 VOCR의 최첨단 기능을 알아보세요. OCR을 통한 간단한 탐색 기능 외에도 VOCR은 VoiceOver와 완벽하게 통합되어 사용자가 직관적이고 사용자 정의 가능한 바로가기를 사용하여 화면 콘텐츠를 쉽게 캡처하고 인식할 수 있습니다. 실시간 OCR과 같은 기능을 통해 사용자는 자막과 같은 실시간 콘텐츠를 지속적으로 모니터링하고 읽을 수 있습니다. ASK AI 기능을 사용하면 OpenAI GPT를 포함한 고급 AI 모델을 활용하여 이미지에 대해 자세한 질문을 하고 통찰력 있는 답변을 얻을 수 있습니다. 또한 귀하의 개인 정보 보호를 위해 Ollama를 통해 로컬 비전 언어 모델을 지원합니다. AI를 통한 탐색은 이미지를 분석하고 다양한 영역을 식별하며 포괄적인 설명을 제공함으로써 한 단계 더 발전합니다.
VOCR의 강력한 기능 세트는 비교할 수 없는 제어력과 정밀도를 제공하므로 원활하고 효율적이며 기능이 뛰어난 OCR 솔루션을 찾는 사용자에게 없어서는 안 될 도구입니다. 액세스할 수 없는 애플리케이션을 탐색 중이거나 이미지에 대해 궁금한 경우 VOCR을 사용하면 쉽고 자신있게 더 많은 작업을 수행할 수 있습니다.
경고 : 자신의 위험에 따라 사용하십시오!
VOCR은 그것이 유용할 것이라는 희망으로 배포되지만, 상품성이나 특정 목적에의 적합성에 대해 명시적이거나 묵시적인 어떠한 보증도 제공하지 않습니다. 자세한 내용은 GNU 일반 공중 사용 허가서를 참조하세요.
다운로드
VOCR v2.0.1을 다운로드할 수 있는 직접 링크는 다음과 같습니다.
설정
VOCR이 제대로 작동하도록 하려면 모든 단계를 정확하게 따르는 것이 중요합니다. 한 단계라도 놓치면 VOCR이 제대로 작동하지 않을 수 있습니다.
- 다운로드한 zip 파일의 압축을 푼 후 애플리케이션을 애플리케이션 폴더로 이동하고 실행하세요.
- vo+m을 두 번 눌러 메뉴 표시줄에서 VOCR이 실행 중인지 확인하세요.
- VoiceOver 유틸리티의 일반 범주 아래에서 "AppleScript로 VoiceOver 제어 허용" 확인란을 선택합니다.
- 활성화된 경우 vo+shift+f11을 사용하여 화면 커튼을 끄세요. 앱이 제대로 작동하려면 화면 커튼이 꺼져 있어야 합니다.
- VoiceOver 영상이 표시되면 vo+command+f11을 사용하여 숨기세요. 숨겨지지 않으면 VoiceOver 캡션 패널과 같은 요소가 다른 화면 콘텐츠와 함께 인식됩니다.
- 명령+시프트+컨트롤+w를 누르세요. 접근성 권한을 요청하는 알림을 받아야 합니다. VoiceOver가 자동으로 창에 초점을 맞추지 않는 경우 vo+f1을 두 번 눌러 현재 실행 중인 앱 목록을 표시하세요. 시스템 대화 상자가 이 목록에 있어야 합니다.
- 접근성 권한을 부여한 후 command+shift+control+w를 다시 누르면 VOCR에 대한 스크린샷 촬영 권한을 요청하는 알림이 표시됩니다. 경고를 받지 못한 경우 앞서 설명한 대로 시스템 대화 상자를 찾으십시오.
- 시스템 대화 상자를 찾을 수 없는 경우 시스템 설정, 개인 정보 보호 및 보안으로 이동한 다음 화면 녹화를 선택하고 VOCR 앱을 찾으세요.
- 접근성 권한을 부여한 후 메시지가 표시되면 앱을 다시 시작하세요.
- vo+m을 두 번 눌러 앱이 메뉴 표시줄에 있는지 확인하세요.
- 명령+시프트+컨트롤+w를 누르세요. "완료"라는 경고음과 음성 안내가 들려야 합니다.
- 이제 command+control+화살표를 사용하여 인식된 결과를 탐색할 수 있습니다. 자세한 내용은 아래 단축키 섹션을 참조하세요.
- 처음으로 결과를 탐색할 때 VOCR이 음성 안내를 위해 VoiceOver를 제어하도록 허용하라는 알림이 표시됩니다.
- VOCR의 탐색 모드를 종료하고 탐색 바로가기를 확보하려면 Esc를 누르세요.
OCR VoiceOver 커서
이 기능은 웹페이지의 비디오 플레이어나 소셜 미디어의 이미지 등 화면의 특정 부분을 캡처하는 데 유용합니다.
- VoiceOver 커서를 인식하려는 요소로 이동하세요.
- Command+Shift+Ctrl+V를 누르세요.
- 이 기능을 처음 사용하면 VOCR이 AppleScript를 실행할 수 있도록 허용하라는 경고가 표시됩니다.
- 권한을 부여한 후 다시 command+shift+control+v를 누르세요.
실시간 OCR
창을 스캔하거나 VOCursor를 사용하여 실시간 OCR을 시작하거나 중지한 후 Command+Shift+Control+R을 누르세요. 활성화되면 VOCR은 새로운 콘텐츠만 지속적으로 검색하고 보고합니다. 자막 등 실시간 콘텐츠를 읽을 때 유용합니다.
AI 모델 설정
Ollama를 사용하여 자신만의 비전 언어 모델을 호스팅하거나 OpenAI GPT를 활용하여 VOCR로 캡처한 이미지에 대해 질문할 수 있습니다.
OpenAI GPT 모델을 사용하려면:
- 귀하의 계정에 대한 API 크레딧을 구매하세요.
- OpenAI API 키를 생성합니다.
- VOCR 메뉴(설정 > 엔진 > OpenAI API 키)에 OpenAI API 키를 입력하세요.
참고: 크레딧 구매 후 API가 활성화되는 데 몇 시간이 걸릴 수 있습니다.
VOCR의 사용 비용은 추정치입니다. 공식적인 사용량 및 비용은 OpenAI 홈페이지의 Usage Dashboard를 참고하시기 바랍니다.
Ollama로 로컬 비전 언어 모델을 활용하려면 다음을 수행하십시오.
Ollama는 무료이고 비공개이지만 정확도가 낮고 컴퓨팅 성능이 많이 필요합니다. 최소 16GB 메모리를 갖춘 M1 칩 이상을 권장합니다.
올라마를 다운로드하여 설치하세요.
터미널에서 다음 명령을 실행하여 다중 모드(비전 언어) 모델을 다운로드합니다.
더 높은 정확도를 제공하지만 더 많은 저장 공간, 메모리 및 컴퓨팅 성능이 필요한 llava:13b
및 llava:34b
모델도 있습니다.
VOLlama라는 관련 앱을 사용해 볼 수도 있습니다. Ollama용 액세스 가능한 채팅 클라이언트로, 컴퓨터에서 로컬로 실행되는 오픈 소스 대규모 언어 모델과 쉽게 상호 작용할 수 있습니다.
AI에게 물어보세요
OpenAI 및/또는 Ollama 설정 후:
- VOCR 메뉴 > 설정 > 엔진에서 Ollama 또는 GPT를 선택합니다.
- 창/VOCursor를 스캔하거나 카메라에서 이미지를 캡처합니다.
- Command+Shift+Control+A를 누르면 선택한 모델에게 이미지에 대한 질문을 할 수 있습니다.
응답은 클립보드에 복사되므로 놓친 경우를 대비하여 검토할 수 있습니다.
또한 Finder에서 이미지 파일을 선택하고 VO+Shift+M을 눌러 상황에 맞는 메뉴를 불러온 다음 '다음으로 열기'로 이동하고 VOCR을 선택하여 이미지에 대해 질문할 수 있습니다.
AI로 탐색
- VOCR 메뉴 > 설정 > 엔진에서 GPT를 선택합니다.
- VOCR 메뉴 > 설정 > 엔진 > OpenAI API 키에서 OpenAI API 키를 제공하세요.
- 창을 스캔하거나 VOCursor를 사용하세요.
- Command+Shift+Ctrl+E를 누릅니다.
VOCR은 GPT에게 이미지를 분석하고, 다양한 영역을 식별하고, 각 영역의 내용을 설명하도록 요청합니다. Command + Control + 화살표 단축키를 사용하여 결과를 탐색할 수 있습니다.
참고: 이 기능은 실험적이므로 위치와 콘텐츠에 대한 설명이 부정확해지는 경우가 많습니다.
전역 단축키
다음 단축키는 항상 작동합니다.
- VOCR 메뉴: Command+Shift+Control+S
- OCR 창: Command+Shift+Ctrl+W
- OCR VoiceOver 커서: Command+Shift+Control+V
- 카메라 캡처: Command+Shift+Ctrl+C
- 실시간 OCR 전환: Command+Shift+Control+R
- AI에게 물어보기: Command+Shift+Control+A
- AI로 탐색: Command+Shift+Control+E
탐색 바로가기
이러한 바로가기는 스캔 후 탐색이 활성화된 경우에만 작동합니다.
- 아래/위로 이동: Command+Control+아래/위 화살표
- 왼쪽/오른쪽 이동: Command+Control+왼쪽/오른쪽 화살표
- 이전/다음 문자: Command+Shift+Control+왼쪽/오른쪽 화살표
- 상단/하단으로 이동: Command+Control+Page Up/Down
- 수평으로 시작/끝으로 이동: Command+Control+Home/End
- 탐색 종료: 탈출
- 위치: Command+Control+L(현재 좌표 보고)
- 개체 식별: Command+Control+I(설정에서 개체 감지가 활성화된 경우 AI로 현재 개체 식별)
설정
Command+Control+Shift+S를 사용하여 VOCR 메뉴에 액세스하세요. 이 메뉴에는 모든 설정과 작업이 포함되어 있습니다.
- 대상 창: 현재 창과 다른 창을 스캔할 수 있습니다.
- 자동 스캔: VO+Shift+Space를 눌러 항목을 클릭하면 자동으로 스캔합니다.
- 개체 감지: 아이콘과 같이 텍스트가 없는 개체를 찾습니다.
- 마지막 프롬프트 사용: Command+Shift+Control+A를 사용하여 AI에 요청할 때 마지막 프롬프트를 재사용합니다.
- 마우스 이동: 탐색할 때 마우스 커서를 이동합니다.
- 위치 오디오: 마우스 커서가 움직일 때 오디오 피드백을 제공합니다. 주파수 변경은 수직 위치에 해당하고 오디오 패닝은 수평 위치에 해당합니다. 오디오 피드백이 들리지 않으면 설정 > 사운드 출력으로 이동하세요.
- 위치 재설정: 비활성화되면 새로 스캔할 때마다 커서가 왼쪽 상단 모서리로 재설정되지 않습니다.
- 로그인 시 실행: 로그인 시 자동으로 VOCR을 실행합니다.
- 로그: 문서 폴더의 VOCR.txt에 로그 쓰기를 시작합니다.
- 사운드 출력: 오디오 위치 피드백을 위한 사운드 장치를 선택합니다.
- 카메라 선택: 이미지 캡처에 사용할 카메라를 선택합니다.
- 바로가기: 바로가기를 사용자 정의합니다.
- 엔진: GPT 또는 Ollama 중에서 선택합니다.
Llama.cpp는 서버의 비전 언어 모델에 대한 지원을 일시적으로 중단했습니다.
작업
VOCR 메뉴를 열면 스캔 후 몇 가지 작업을 사용할 수 있습니다.
- 마지막 이미지 저장
- OCR 결과 저장
- 업데이트
문제 해결
- "아무 것도 찾을 수 없습니다"라는 소리가 들리면 vo+shift+f11을 사용하여 VoiceOver 화면 커튼을 끄거나 시스템 설정 > 개인 정보 보호 및 보안에서 접근성 및 화면 녹화 권한을 조정해야 할 수 있습니다.
- "OCR VoiceOver 커서" 기능을 사용한 후 아무 소리도 들리지 않으면 Apple 이벤트 보내기에 대한 VOCR 권한을 부여해야 할 수 있습니다.
일반적으로 VOCR을 다시 실행하고 명령을 다시 실행하면 위에서 설명한 대로 시스템 대화 상자에 경고가 다시 표시되도록 다시 트리거됩니다.
마지막으로 VOCR을 즐겨주세요!