Китайский • Английский • Японский
Бесплатное автономное программное обеспечение для оптического распознавания символов с открытым исходным кодом и возможностью пакетной обработки.
Применимо к Windows7 x64, Linux x64.
Бесплатно : весь код в этом проекте имеет открытый исходный код и совершенно бесплатен.
Удобно : распакуйте и используйте, работайте в автономном режиме, подключение к сети не требуется.
Эффективность : он оснащен высокоэффективным автономным механизмом оптического распознавания символов и встроенными библиотеками распознавания нескольких языков.
Гибкость : поддерживает внешние методы вызова, такие как командная строка и интерфейс HTTP.
Функции : распознавание скриншотов / пакетное распознавание текста / распознавание PDF / QR-код / распознавание формул.
Распознавание скриншотов
Анализ набора текста — определите различные типы шрифтов и выведите текст в правильном порядке.
Идентификация партии
Игнорировать область — исключить текст водяного знака на скриншоте.
QR-код поддерживает сканирование или создание изображений QR-кода.
Распознавание документов извлекает текст из отсканированных PDF-файлов или преобразует их в двухслойные PDF-файлы с возможностью поиска.
Глобальные настройки
Вызов командной строки
HTTP-интерфейс
Сборка проекта (Windows, Linux)
Разработчики, пожалуйста, обязательно прочтите «Строительные проекты».
Следующие ссылки на выпуск поддерживаются в течение длительного времени и обеспечивают загрузку стабильных версий.
Lanzoul Cloud https://hiroi-sora.lanzoul.com/s/umi-ocr (рекомендация внутри страны, без регистрации/неограниченная скорость)
GitHub https://github.com/hiroi-sora/Umi-OCR/releases/latest
Источник Forge https://sourceforge.net/projects/umi-ocr
Scoop — это программа установки из командной строки под Windows, которая позволяет легко управлять несколькими приложениями. Вы можете сначала установить Scoop, а затем использовать следующие инструкции для установки Umi-OCR
:
Добавить extras
сегмент:
scoop bucket add extras
(Необязательно 1) Установите Umi-OCR (поставляется с механизмом Rapid-OCR
, хорошая совместимость):
scoop install extras/umi-ocr
(Необязательно 2) Установите Umi-OCR (поставляется с механизмом Paddle-OCR
, немного быстрее):
scoop install extras/umi-ocr-paddle
Не устанавливайте оба одновременно, ярлыки могут быть перезаписаны. Но вы можете в любой момент импортировать дополнительные плагины и переключиться на другие механизмы оптического распознавания символов.
Пакет выпуска программного обеспечения загружается в виде сжатого пакета .7z
или самораспаковывающегося пакета .7z.exe
. Самораспаковывающиеся пакеты могут распаковывать файлы на компьютерах, на которых не установлено программное обеспечение для сжатия.
Это программное обеспечение не требует установки. После распаковки нажмите Umi-OCR.exe
, чтобы запустить программу.
Если у вас возникнут какие-либо проблемы, пожалуйста, сообщите о проблеме, и я сделаю все возможное, чтобы помочь вам.
Интерфейс, поддерживаемый Umi-OCR, доступен на нескольких языках. Когда вы впервые открываете программное обеспечение, язык автоматически переключается в соответствии с системными настройками вашего компьютера.
Если вам нужно переключить язык вручную, см. рисунок ниже:全局设置
→语言/Language
.
Umi-OCR v2 состоит из ряда гибких и простых в использовании вкладок . Вы можете открыть необходимые вкладки по своему усмотрению.
Вы можете переключить окно на верх в левом верхнем углу панели вкладок. В правом верхнем углу можно заблокировать вкладку , чтобы предотвратить случайное закрытие вкладки во время ежедневного использования.
Распознавание скриншотов : после открытия этой страницы вы можете использовать сочетания клавиш, чтобы вызвать снимок экрана и распознать текст на изображении.
На панели предварительного просмотра изображения слева вы можете напрямую выбирать и копировать с помощью мыши.
В столбце идентификационной записи справа можно редактировать текст, а также выбирать и копировать несколько записей.
Он также поддерживает копирование изображений в другое место и вставку их в Umi-OCR для распознавания.
О функции распознавания формул
О постобработке текста OCR — решении для анализа набора текста . Набор текста и порядок результатов OCR можно организовать, чтобы сделать текст более подходящим для чтения и использования. План по умолчанию:
多栏-按自然段换行
: подходит для большинства сценариев, автоматически распознает многоколоночный макет и переносит строки в соответствии с естественными правилами абзацев.
多栏-总是换行
: каждый оператор переносится.
多栏-无换行
: принудительно объединяет все операторы в одну строку.
单栏-按自然段换行
/总是换行
/无换行
: аналогично приведенному выше, но не различает макеты с несколькими столбцами.
单栏-保留缩进
: подходит для разбора скриншотов кода, сохраняя отступ в начале строки и пробелы в строке.
不做处理
: исходный вывод механизма OCR с разрывами строк для каждого оператора по умолчанию.
Вышеупомянутые решения могут автоматически обрабатывать горизонтальный и вертикальный (справа налево) набор текста. (Вертикальный текст также требует поддержки самого механизма OCR)
Пакетное распознавание символов : эта страница используется для пакетного импорта локальных изображений для распознавания.
Поддерживаемые форматы: jpg, jpe, jpeg, jfif, png, webp, bmp, tif, tiff
.
Поддерживаемые форматы сохранения результатов распознавания: txt, jsonl, md, csv(Excel)
.
Как и OCR скриншотов, он поддерживает функцию文本后处理
для организации макета и порядка текста OCR.
Верхнего ограничения на количество нет, и для задач можно одновременно импортировать сотни изображений.
Поддерживает автоматическое выключение/переход в режим ожидания после завершения задачи.
Если вы хотите распознавать длинные или большие изображения с слишком большими пикселями, настройте: настройки страницы → распознавание текста → ограничьте длину стороны изображения → [Увеличить значение] .
Имеет специальную функцию忽略区域
.
О постобработке текста OCR — Игнорировать области : специальная функция пакетного оптического распознавания символов, подходящая для исключения нежелательного текста на изображениях.
Редактор области игнорирования можно ввести в настройках правого столбца страницы идентификации партии.
Как и в примере выше, в правом верхнем и нижнем правом углу изображения имеется несколько водяных знаков/логотипов. Если такие изображения распознаются партиями, водяные знаки будут мешать результатам распознавания.
Удерживая правую кнопку, нарисуйте несколько прямоугольных прямоугольников. Текст внутри этих областей будет игнорироваться в миссии.
Пожалуйста, постарайтесь сделать прямоугольную рамку как можно большего размера, чтобы полностью закрыть все возможные места расположения водяного знака.
Обратите внимание, что будет игнорироваться только весь блок текста в поле региона игнорирования (а не отдельные символы). Как показано на рисунке ниже, темный прямоугольник с желтой рамкой — это игнорируемая область. Тогда будет игнорироваться только key_mouse
. Два текстовых блока pubsub_connector.py
и pubsub_service.py
сохраняются.
Идентификация документа :
Поддерживаемые форматы: pdf, xps, epub, mobi, fb2, cbz
.
Выполните распознавание текста на отсканированных документах или извлеките исходный текст. Можно экспортировать в виде двухслойного PDF-файла с возможностью поиска .
Поддерживает настройку областей игнорирования , которые можно использовать для исключения текста верхнего и нижнего колонтитула.
Можно настроить автоматическое выключение/переход в спящий режим после завершения задачи.
Скан-код :
Сделайте снимок экрана/вставьте/перетащите его на локальное изображение и прочитайте на нем QR-код и штрих-код.
Поддерживает несколько кодов для одного изображения.
Поддерживает 19 протоколов, а именно:
Aztec
, Codabar
, Code128
, Code39
, Code93
, DataBar
, DataBarExpanded
, DataMatrix
, EAN13
, EAN8
, ITF
, LinearCodes
, MatrixCodes
, MaxiCode
, MicroQRCode
, PDF417
, QRCode
, UPCA
, UPCE
Сгенерировать код :
Введите текст и создайте изображение QR-кода.
Поддерживает 19 протоколов, уровни исправления ошибок и другие параметры.
Глобальные настройки : здесь вы можете настроить глобальные параметры программного обеспечения. Обычно используемые функции следующие:
Добавьте ярлыки или установите автозапуск при загрузке одним щелчком мыши.
Изменить язык интерфейса. Umi поддерживает традиционный китайский, английский, японский и другие языки.
Переключить тему интерфейса. У Umi есть несколько светлых/темных тем.
Настройте размер и шрифт текста интерфейса .
Переключите плагин OCR.
Renderer : интерфейс программного обеспечения по умолчанию поддерживает рендеринг с ускорением видеокарты. Если скриншоты мерцают и пользовательский интерфейс на вашем компьютере смещен, настройте界面和外观
→渲染器
, попробуйте переключиться на другую схему рендеринга или отключите аппаратное ускорение.
Руководство по командной строке
Руководство по HTTP-интерфейсу
Благодарим следующих переводчиков, которые внесли свой вклад в работу по переводу локализации для Umi-OCR: (перечислены в произвольном порядке)
переводчик | Язык вклада |
---|---|
Боб | английский, традиционный китайский, японский |
Цинчжэн Гао | английский, традиционный китайский |
Венг, Цзя-Лин | английский, традиционный китайский |
Линцов | английский, традиционный китайский |
Эрик Го | Английский |
Стивен0081 | Английский |
Маркос я | Английский |
слива7x | Традиционный китайский |
Хьюгоал | Традиционный китайский |
ドコモ光 | японский |
Ян Пэн | Португальский |
Если есть неверная информация или отсутствует персонал, пожалуйста, ответьте в этом обсуждении.
В этом проекте используется онлайн-платформа Weblate: Umi-OCR для совместной работы над переводом локализации. Мы приглашаем любого пользователя принять участие в работе по переводу, вы можете корректировать, дополнять существующие языки или добавлять новые языки.
Основной склад?
Библиотека плагинов
среда выполнения Windows
среда выполнения Linux
Суффикс **
указывает на содержимое, содержащееся в этом хранилище (主仓库
).
Umi-OCR ├─ Umi-OCR.exe ├─ umi-ocr.sh └─ UmiOCR-data ├─ main.py ** ├─ version.py ** ├─ qt_res ** │ └─ 项目qt资源,包括图标和qml源码 ├─ py_src ** │ └─ 项目python源码 ├─ plugins │ └─ 插件 └─ i18n ** └─ 翻译文件
Поддерживаемые автономные механизмы OCR:
PaddleOCR-json
RapidOCR-json
Структура среды запуска:
Индивидуальная версия PyStand
Пожалуйста, обратитесь к инструкциям в начале журнала изменений.
Перейдите на следующий склад, чтобы завершить развертывание среды разработки/эксплуатации соответствующей платформы.
Окна
Линукс
Проект Umi-OCR в основном разрабатывается и поддерживается автором Хирои-Сора в свободное время. Если вам нравится это программное обеспечение, пожалуйста, спонсируйте его.
Домашние пользователи могут спонсировать авторов через iPower.
Рамка вкладки.
API-контроллер OCR.
Контроллер задач OCR.
Менеджер тем поддерживает переключение светлых/темных тем.
Внедрить пакетное распознавание текста .
Реализовать распознавание скриншотов .
Механизм быстрого доступа.
Меню в системном трее.
Постобработка текстового блока (оптимизация верстки).
Очистка памяти двигателя.
Интерфейс программного обеспечения доступен на нескольких языках.
Режим командной строки.
Совместимость с Win7.
Формат вывода Excel (csv).
Esc
прерывает операцию создания скриншота
Внешние файлы темы
Переключение шрифтов
анимация загрузки
Не обращайте внимания на этот район.
Распознавание QR-кода.
Окно предварительного просмотра изображения страницы распознавания пакетов.
Распознавание PDF.
Вызовите локальный браузер изображений, чтобы открыть изображение. #335
Повторите последний скриншот. #357
Исправлена ошибка: проблема совместимости распознавания документов в системе Windows 7.
Интерфейс HTTP/командной строки добавляет функцию распознавания/генерации QR-кода. (#423)
Документация по интерфейсу QR-кода.
Портирование платформы Linux.
Интерфейс распознавания HTTP-документов.
Это ожидаемые функции. Интерфейсы зарезервированы на ранних стадиях разработки и будут постепенно внедряться в долгосрочной перспективе.
Однако в зависимости от реальных условий в ходе разработки функциональный дизайн может быть изменен, а функции могут быть добавлены или отменены.
Рефакторинг базового механизма плагинов.
Плагин Online OCR API.
Независимый плагин распознавания математических формул.
Вкладка «Математическая формула» обеспечивает независимое распознавание математических формул/отрисовку латекса.
Проверьте механизм обновления.
Модули постобработки текста, кроме анализа набора текста (например, сохранение чисел, преобразование символов половинной ширины, исправление текстовых ошибок).
Ключевые функции интерфейса добавляют методы запуска событий.
Автономное распознавание текста на базе графического процессора.
Перевод изображений
Оффлайн перевод.
Фиксированное распознавание области.
Распознавайте изображения таблиц и выводите их в Excel.
Система записи истории.
Совместимость с MacOS/Ubuntu и другими платформами.