Повышение доступности за счет плавного распознавания экрана
Добро пожаловать в ВОКР
Откройте для себя передовые возможности VOCR, вашего идеального инструмента оптического распознавания символов и распознавания экрана на основе искусственного интеллекта, предназначенного для повышения качества вашей цифровой доступности. Помимо простой функции навигации с помощью OCR, VOCR легко интегрируется с VoiceOver, позволяя пользователям легко захватывать и распознавать содержимое экрана с помощью интуитивно понятных и настраиваемых ярлыков. Благодаря таким функциям, как распознавание текста в реальном времени, пользователи могут постоянно отслеживать и читать контент в реальном времени, например субтитры. Функциональность ASK AI позволяет вам использовать расширенные модели искусственного интеллекта, включая OpenAI GPT, чтобы задавать подробные вопросы об изображениях и получать содержательные ответы. Он также поддерживает локальные языковые модели через Ollama для обеспечения вашей конфиденциальности. Explore with AI делает еще один шаг вперед, анализируя изображения, определяя различные области и предоставляя подробные описания.
Надежный набор функций VOCR обеспечивает беспрецедентный контроль и точность, что делает его незаменимым инструментом для пользователей, которым требуется цельное, эффективное и высокофункциональное решение для оптического распознавания символов. Независимо от того, работаете ли вы с недоступными приложениями или интересуетесь изображениями, VOCR позволит вам делать больше с легкостью и уверенностью.
ВНИМАНИЕ : ИСПОЛЬЗУЙТЕ НА СВОЙ СТРАХ И РИСК!
VOCR распространяется в надежде, что он будет полезен, но БЕЗ КАКИХ-ЛИБО ГАРАНТИЙ, явных или подразумеваемых, КОММЕРЧЕСКОЙ ПРИГОДНОСТИ ИЛИ ПРИГОДНОСТИ ДЛЯ ОПРЕДЕЛЕННОЙ ЦЕЛИ. Дополнительную информацию см. в Стандартной общественной лицензии GNU.
Скачать
Вот прямая ссылка для скачивания VOCR v2.0.1.
Настраивать
Чтобы обеспечить правильную работу VOCR, крайне важно точно следовать каждому шагу. Пропуск хотя бы одного шага может помешать правильной работе VOCR.
- После распаковки загруженного zip-файла переместите приложение в папку «Приложения» и запустите его.
- Подтвердите работу VOCR в строке меню, дважды нажав vo+m.
- В утилите VoiceOver в категории «Общие» установите флажок «Разрешить управление VoiceOver с помощью AppleScript».
- Если активно, выключите шторку экрана с помощью vo+shift+f11. Обратите внимание: для правильной работы приложения шторка экрана должна быть отключена.
- Скройте визуальные эффекты VoiceOver с помощью vo+command+f11, если они отображаются. Если они не скрыты, такие элементы, как панель титров VoiceOver, будут распознаваться вместе с другим содержимым экрана.
- Нажмите команду + Shift + Control + W. Вы должны получить уведомление с запросом разрешения на доступ. Если VoiceOver не фокусируется автоматически на окне, дважды нажмите vo+f1, чтобы отобразить список запущенных в данный момент приложений; системный диалог должен быть в этом списке.
- После предоставления разрешения на доступ снова нажмите команду +shift+control+w, чтобы получить уведомление с запросом разрешения для VOCR на создание снимка экрана. Если вы не получили предупреждение, найдите системное диалоговое окно, как описано ранее.
- Если вы не можете найти системное диалоговое окно, перейдите в «Настройки системы», «Конфиденциальность и безопасность», затем выберите «Запись экрана» и найдите приложение VOCR.
- После предоставления разрешения на доступ перезапустите приложение, как будет предложено.
- Убедитесь, что приложение находится в строке меню, дважды нажав vo+m.
- Нажмите команду + Shift + Control + W. Вы должны услышать звуковой сигнал и голосовую подсказку «Готово».
- Теперь вы можете перемещаться по распознанным результатам, используя команду+Control+стрелки. Для получения дополнительной информации обратитесь к разделу ярлыков ниже.
- При первом просмотре результатов вам будет предложено разрешить VOCR управлять VoiceOver для озвучивания объявлений.
- Нажмите Escape, чтобы выйти из режима навигации VOCR и освободить ярлыки навигации.
Курсор VoiceOver для распознавания текста
Эта функция полезна для захвата определенных частей экрана, например видеоплеера на веб-странице или изображений в социальных сетях.
- Наведите курсор VoiceOver на элемент, который вы хотите распознать.
- Нажмите команду+shift+control+v.
- При первом использовании этой функции вы получите предупреждение о разрешении VOCR запуска AppleScript.
- После предоставления разрешения снова нажмите команду+Shift+control+v.
Оптическое распознавание текста в реальном времени
Нажмите Command+Shift+Control+R после сканирования окна или используйте VOCursor, чтобы запустить или остановить распознавание текста в реальном времени. При активации VOCR будет постоянно сканировать и сообщать только о новом контенте. Это полезно для чтения живого контента, например субтитров.
Настройка модели ИИ
Вы можете разместить свою собственную языковую модель видения с помощью Ollama или использовать OpenAI GPT, чтобы задавать вопросы об изображениях, снятых с помощью VOCR.
Чтобы использовать модель OpenAI GPT:
- Приобретите кредиты API для своей учетной записи.
- Создайте ключ API OpenAI.
- Введите свой ключ API OpenAI в меню VOCR: Настройки > Движок > Ключ API OpenAI.
Примечание. Активация вашего API после покупки кредитов может занять несколько часов.
Стоимость использования VOCR является приблизительной. Официальную информацию об использовании и стоимости см. на панели мониторинга использования на веб-сайте OpenAI.
Чтобы использовать языковую модель местного видения с Олламой:
Ollama бесплатен и приватен, но он менее точен и требует большой вычислительной мощности. Я рекомендую чип M1 или новее с объемом памяти не менее 16 ГБ.
Загрузите и установите Олламу.
Загрузите мультимодальную модель (язык видения), выполнив следующую команду в своем терминале:
Обратите внимание, что существуют также модели llava:13b
и llava:34b
, которые обеспечивают более высокую точность, но требуют большего объема памяти, памяти и вычислительной мощности.
Вы также можете попробовать соответствующее приложение под названием VOLlama. Это доступный чат-клиент для Ollama, позволяющий легко взаимодействовать с моделью большого языка с открытым исходным кодом, которая работает локально на вашем компьютере.
СПРОСИТЬ ИИ
После настройки OpenAI и/или Ollama:
- Выберите Ollama или GPT в меню VOCR > Настройки > Двигатель.
- Отсканируйте окно/VOCursor или сделайте снимок с камеры.
- Нажмите Command+Shift+Control+A, чтобы задать выбранной модели вопрос об изображении.
Ответ будет скопирован в буфер обмена, чтобы вы могли просмотреть его, если пропустите.
Также вы можете выбрать файл изображения в Finder, вызвать контекстное меню с помощью VO+Shift+M, перейти к «Открыть с помощью» и выбрать VOCR, чтобы задать вопрос об изображении.
Исследуйте с помощью ИИ
- Выберите GPT в меню VOCR > Настройки > Двигатель.
- Укажите свой ключ API OpenAI в меню VOCR > Настройки > Движок > Ключ API OpenAI.
- Сканируйте окно или используйте VOCursor.
- Нажмите Command+Shift+Control+E.
VOCR попросит GPT проанализировать изображение, определить различные области и описать содержимое каждой. Вы можете перемещаться по результатам, используя сочетания клавиш Command + Control + Стрелки.
Примечание. Эта функция является экспериментальной и часто приводит к неточным описаниям мест и контента.
Глобальные ярлыки
Эти ярлыки работают всегда:
- Меню VOCR: Command+Shift+Control+S
- Окно OCR: Command+Shift+Control+W
- Курсор OCR VoiceOver: Command+Shift+Control+V
- Захват камеры: Command+Shift+Control+C
- Переключить распознавание текста в реальном времени: Command+Shift+Control+R
- Спросите ИИ: Command+Shift+Control+A
- Исследуйте с помощью ИИ: Command+Shift+Control+E.
Ярлыки навигации
Эти ярлыки работают только тогда, когда навигация активна после сканирования:
- Перемещение вниз/вверх: Command+Control+Стрелка вниз/вверх.
- Перемещение влево/вправо: Command+Control+Стрелка влево/вправо.
- Предыдущий/следующий символ: Command+Shift+Control+Стрелка влево/вправо.
- Перейти вверх/вниз: Command+Control+Page Up/Down.
- Перейти к началу/концу по горизонтали: Command+Control+Home/End.
- Выход из навигации: Побег
- Местоположение: Command+Control+L (сообщает текущие координаты)
- Идентифицировать объект: Command+Control+I (идентифицирует текущий объект с помощью ИИ, если в настройках включено обнаружение объекта)
Настройки
Откройте меню VOCR, нажав Command+Control+Shift+S. Это меню содержит все настройки и операции.
- Целевое окно: позволяет сканировать окно, отличное от текущего.
- Автосканирование: автоматически сканирует после щелчка по элементу с помощью VO+Shift+Пробел.
- Обнаружить объект: находит объекты без текста, например значки.
- Использовать последнюю подсказку: повторно использует последнюю подсказку при запросе ИИ с помощью Command+Shift+Control+A.
- Переместить мышь: перемещает курсор мыши при навигации.
- Позиционный звук: обеспечивает звуковую обратную связь при перемещении курсора мыши. Изменения частоты соответствуют вертикальному положению, а панорамирование звука соответствует горизонтальному положению. Если вы не слышите звуковой сигнал, перейдите в «Настройки» > «Вывод звука».
- Сбросить положение: если этот параметр отключен, курсор не будет сбрасываться в верхний левый угол после каждого нового сканирования.
- Запуск при входе в систему: автоматически запускает VOCR при входе в систему.
- Журнал: начинает запись журналов в VOCR.txt в папке «Документы».
- Звуковой выход: выберите звуковое устройство для звуковой позиционной обратной связи.
- Выбрать камеру: выберите камеру, которую будете использовать для захвата изображения.
- Ярлыки: настройка ярлыков.
- Двигатель: выберите между GPT или Ollama.
Обратите внимание, что Llama.cpp временно приостановил поддержку языковой модели Vision на своем сервере.
Операция
При открытии меню VOCR после сканирования доступно несколько операций:
- Сохранить последнее изображение
- Сохранить результат распознавания
- Обновления
Поиск неисправностей
- Если вы услышите «ничего не найдено», вам, вероятно, нужно отключить шторку экрана VoiceOver с помощью vo+shift+f11 или настроить специальные возможности и разрешения на запись экрана в разделе «Настройки системы» > «Конфиденциальность и безопасность».
- Если вы ничего не слышите после использования функции «OCR VoiceOver Cursor», вам, вероятно, необходимо предоставить разрешения VOCR для: отправки событий Apple.
Обычно перезапуск VOCR и повторный ввод команды приводит к повторному появлению предупреждений в системных диалогах, как описано выше.
И наконец, наслаждайтесь использованием VOCR!