중국어 • 영어 • 일본어
무료 오픈 소스, 배치 가능 오프라인 OCR 소프트웨어
Windows7 x64, Linux x64에 적용 가능
무료 : 이 프로젝트의 모든 코드는 오픈 소스이며 완전 무료입니다.
편리함 : 압축을 풀고 사용하고, 오프라인으로 실행하고, 네트워크가 필요하지 않습니다.
효율성 : 매우 효율적인 오프라인 OCR 엔진과 내장된 다중 언어 인식 라이브러리가 함께 제공됩니다.
유연성 : 명령줄, HTTP 인터페이스 등 외부 호출 방식을 지원합니다.
기능 : 스크린샷 OCR / 일괄 OCR / PDF 인식 / QR 코드 / 수식 인식
스크린샷 인식
조판 분석 - 다양한 유형의 유형을 식별하고 올바른 순서로 텍스트를 출력합니다.
배치 식별
영역 무시 - 스크린샷 워터마크의 텍스트를 제외합니다.
QR 코드는 QR 코드 사진 스캔 또는 생성을 지원합니다.
문서 인식은 PDF 스캔에서 텍스트를 추출하거나 이를 검색 가능한 2계층 PDF로 변환합니다.
전역 설정
명령줄 호출
HTTP 인터페이스
프로젝트 빌드(Windows, Linux)
개발자는 프로젝트 구축을 꼭 읽어보시기 바랍니다.
다음 릴리스 링크는 오랫동안 유지되며 안정적인 버전의 다운로드를 제공합니다.
Lanzoul Cloud https://hiroi-sora.lanzoul.com/s/umi-ocr (국내 권장, 등록 없음/속도 무제한)
GitHub https://github.com/hiroi-sora/Umi-OCR/releases/latest
소스 포지 https://sourceforge.net/projects/umi-ocr
Scoop은 여러 응용 프로그램을 쉽게 관리할 수 있는 Windows의 명령줄 설치 프로그램입니다. Scoop을 먼저 설치한 후 다음 지침에 따라 Umi-OCR
설치할 수 있습니다.
extras
버킷 추가:
scoop bucket add extras
(선택 사항 1) Umi-OCR 설치( Rapid-OCR
엔진과 함께 제공, 우수한 호환성):
scoop install extras/umi-ocr
(선택 사항 2) Umi-OCR 설치( Paddle-OCR
엔진과 함께 제공, 약간 더 빠름):
scoop install extras/umi-ocr-paddle
두 가지를 동시에 설치하지 마십시오. 바로가기를 덮어쓸 수 있습니다. 그러나 언제든지 추가 플러그인을 가져오고 다른 OCR 엔진으로 전환할 수 있습니다.
소프트웨어 릴리스 패키지는 .7z
압축 패키지 또는 .7z.exe
자동 추출 패키지로 다운로드됩니다. 자동 압축 풀기 패키지는 압축 소프트웨어가 설치되지 않은 컴퓨터에서 파일의 압축을 풀 수 있습니다.
이 소프트웨어는 설치가 필요하지 않습니다. 압축을 푼 후 Umi-OCR.exe
클릭하여 프로그램을 시작합니다.
문제가 발생한 경우 문제를 제출해 주시면 최선을 다해 도와드리겠습니다.
Umi-OCR이 지원하는 인터페이스는 여러 언어로 제공됩니다. 소프트웨어를 처음 열면 컴퓨터의 시스템 설정에 따라 언어가 자동으로 전환됩니다.
언어를 수동으로 전환해야 하는 경우 아래 그림의全局设置
→语言/Language
참조하세요.
Umi-OCR v2는 유연하고 사용하기 쉬운 일련의 탭 으로 구성됩니다. 원하는 대로 필수 탭을 열 수 있습니다.
탭 표시줄의 왼쪽 상단에서 창을 상단으로 전환할 수 있습니다. 매일 사용하는 동안 탭이 실수로 닫히는 것을 방지하기 위해 오른쪽 상단 모서리에 탭을 잠글 수 있습니다 .
스크린샷 OCR : 이 페이지를 연 후 단축키를 사용하여 스크린샷을 불러오고 사진 속 텍스트를 인식할 수 있습니다.
왼쪽의 사진 미리보기 바에서는 마우스로 직접 선택하고 복사할 수 있습니다.
오른쪽의 식별기록란에서는 텍스트 편집이 가능하며, 여러 기록을 선택하여 복사할 수 있습니다.
또한 이미지를 다른 곳으로 복사하여 인식을 위해 Umi-OCR에 붙여 넣을 수도 있습니다.
공식 인식 기능에 대하여
OCR 텍스트 후처리 정보 - 조판 분석 솔루션 : OCR 결과의 조판 및 순서를 정리하여 텍스트를 읽기 및 사용하기에 더 적합하게 만들 수 있습니다. 기본 계획:
多栏-按自然段换行
: 대부분의 시나리오에 적합하며 다중 열 레이아웃을 자동으로 인식하고 자연스러운 단락 규칙에 따라 줄을 바꿉니다.
多栏-总是换行
: 각 문이 래핑됩니다.
多栏-无换行
: 모든 명령문을 동일한 줄에 강제로 병합합니다.
单栏-按自然段换行
/总是换行
/无换行
: 위와 유사하지만 다중 열 레이아웃을 구분하지 않습니다.
单栏-保留缩进
: 코드 스크린샷을 구문 분석하는 데 적합하며 줄 시작 부분의 들여쓰기와 줄의 공백을 유지합니다.
不做处理
: OCR 엔진의 원래 출력이며 기본적으로 각 문에 줄 바꿈이 포함됩니다.
위의 솔루션은 수평 및 수직(오른쪽에서 왼쪽) 조판을 자동으로 처리할 수 있습니다. (세로 텍스트에도 OCR 엔진 자체의 지원이 필요합니다)
일괄 OCR : 이 페이지는 인식을 위해 로컬 이미지를 일괄 가져오는 데 사용됩니다.
지원되는 형식: jpg, jpe, jpeg, jfif, png, webp, bmp, tif, tiff
.
인식 결과 저장을 위해 지원되는 형식: txt, jsonl, md, csv(Excel)
.
스크린샷 OCR과 마찬가지로 OCR 텍스트의 레이아웃과 순서를 구성하는文本后处理
기능을 지원합니다.
개수에는 제한이 없으며 작업을 위해 한 번에 수백 개의 이미지를 가져올 수 있습니다.
작업 완료 후 자동 종료/대기를 지원합니다.
픽셀이 너무 크거나 긴 이미지를 인식하려면 페이지 설정 → 텍스트 인식 → 이미지 측면 길이 제한 → [값 증가] 를 조정하십시오.
忽略区域
특별한 기능이 있습니다.
OCR 텍스트 후처리 정보 - 영역 무시 : 일괄 OCR의 특수 기능으로, 사진에서 원하지 않는 텍스트를 제외하는 데 적합합니다.
무시 영역 편집기는 배치 식별 페이지의 오른쪽 열 설정에 입력할 수 있습니다.
위의 예와 같이 이미지의 오른쪽 상단과 하단에 여러 개의 워터마크/로고가 있습니다. 이러한 이미지를 일괄적으로 인식할 경우 워터마크가 인식 결과를 방해하게 됩니다.
오른쪽 버튼을 누른 채 직사각형 상자를 여러 개 그립니다. 이 영역 내의 텍스트는 미션에서 무시됩니다.
워터마크의 가능한 모든 위치를 완전히 덮을 수 있도록 직사각형 프레임을 최대한 크게 만드십시오.
무시 영역 상자 내의 전체 텍스트 블록(개별 문자가 아님)만 무시됩니다. 아래 그림과 같이 노란색 테두리가 있는 어두운 직사각형은 무시되는 영역입니다. 그러면 key_mouse
만 무시됩니다. 두 개의 텍스트 블록 pubsub_connector.py
및 pubsub_service.py
가 유지됩니다.
문서 식별 :
지원되는 형식: pdf, xps, epub, mobi, fb2, cbz
.
스캔한 문서에 OCR을 수행하거나 원본 텍스트를 추출합니다. 2레이어 검색 가능한 PDF 로 내보낼 수 있습니다.
머리글 및 바닥글 텍스트를 제외하는 데 사용할 수 있는 무시 영역 설정을 지원합니다.
작업이 완료된 후 자동으로 종료/최대 절전 모드 로 설정될 수 있습니다.
스캔 코드 :
스크린샷을 찍고 로컬 이미지에 붙여넣고 드래그하여 QR 코드와 바코드를 읽어보세요.
하나의 사진에 대해 여러 코드를 지원합니다.
다음과 같이 19개의 프로토콜을 지원합니다.
Aztec
, Codabar
, Code128
, Code39
, Code93
, DataBar
, DataBarExpanded
, DataMatrix
, EAN13
, EAN8
, ITF
, LinearCodes
, MatrixCodes
, MaxiCode
, MicroQRCode
, PDF417
, QRCode
, UPCA
, UPCE
코드 생성 :
텍스트를 입력하고 QR 코드 이미지를 생성하세요.
19개의 프로토콜과 오류 수정 수준 및 기타 매개변수를 지원합니다.
전역 설정 : 여기서 소프트웨어의 전역 매개변수를 조정할 수 있습니다. 일반적으로 사용되는 기능은 다음과 같습니다.
한 번의 클릭으로 바로가기를 추가하거나 부팅 시 자동 시작을 설정하세요.
인터페이스 언어를 변경합니다. Umi는 중국어 번체, 영어, 일본어 및 기타 언어를 지원합니다.
인터페이스 테마를 전환합니다. Umi에는 여러 가지 밝은/어두운 테마가 있습니다.
인터페이스 텍스트의 크기와 글꼴을 조정합니다.
OCR 플러그인을 전환합니다.
렌더러 : 소프트웨어 인터페이스는 기본적으로 그래픽 카드 가속 렌더링을 지원합니다. 컴퓨터에서 스크린샷이 깜박이고 UI가 잘못 정렬된 경우界面和外观
조정하고 →渲染器
사용하거나 다른 렌더링 구성표로 전환하거나 하드웨어 가속을 꺼보세요.
명령줄 매뉴얼
HTTP 인터페이스 매뉴얼
Umi-OCR의 현지화 번역 작업에 기여한 다음 번역가들에게 감사드립니다: (특별한 순서 없이 나열됨)
역자 | 기여 언어 |
---|---|
단발 | 영어, 중국어(번체), 일본어 |
칭정 가오 | 영어, 중국어(번체) |
웽 치아링 | 영어, 중국어(번체) |
린조우 | 영어, 중국어(번체) |
에릭 구오 | 영어 |
스티븐0081 | 영어 |
마르코스 1세 | 영어 |
자두7x | 중국어 번체 |
휴고알 | 중국어 번체 |
도코모광 | 일본어 |
양 펭 | 포르투갈어 |
잘못된 정보나 누락된 인원이 있는 경우 본 토론회에 회신해 주시기 바랍니다.
이 프로젝트는 현지화 번역 협업을 위해 온라인 플랫폼 Weblate: Umi-OCR을 사용합니다. 번역 작업에 참여하는 모든 사용자를 환영하며 기존 언어를 교정하고 보완하거나 새 언어를 추가할 수 있습니다.
주요 창고?
플러그인 라이브러리
Windows 런타임
리눅스 런타임
**
접미사는 이 창고(主仓库
)에 포함된 콘텐츠를 나타냅니다.
Umi-OCR ├─ Umi-OCR.exe ├─ umi-ocr.sh └─ UmiOCR-data ├─ main.py ** ├─ version.py ** ├─ qt_res ** │ └─ 项目qt资源,包括图标和qml源码 ├─ py_src ** │ └─ 项目python源码 ├─ plugins │ └─ 插件 └─ i18n ** └─ 翻译文件
지원되는 오프라인 OCR 엔진:
PaddleOCR-json
RapidOCR-json
실행 환경 프레임워크:
PyStand 맞춤형 버전
변경 로그 시작 부분에 있는 지침을 참조하세요.
해당 플랫폼의 개발/운영 환경 배포를 완료하려면 다음 창고로 이동하세요.
윈도우
리눅스
Umi-OCR 프로젝트는 주로 작가 hiroi-sora가 여가 시간에 개발하고 유지 관리합니다. 이 소프트웨어가 마음에 드신다면 후원해 주세요.
국내 사용자는 iPower를 통해 작가를 후원할 수 있습니다.
탭 프레임.
OCR API 컨트롤러.
OCR 작업 컨트롤러.
테마 관리자는 밝은/어두운 테마 전환을 지원합니다.
일괄 OCR을 구현합니다.
스크린샷 OCR을 구현합니다.
바로가기 키 메커니즘.
시스템 트레이 메뉴.
텍스트 블록 후처리(조판 최적화).
엔진 메모리 정리.
소프트웨어 인터페이스는 여러 언어로 제공됩니다.
명령줄 모드.
Win7 호환.
Excel(csv) 출력 형식입니다.
Esc
스크린샷 작업을 중단합니다.
외부 테마 파일
글꼴 전환
애니메이션 로딩
해당 지역을 무시하십시오.
QR 코드 인식.
일괄 인식 페이지의 사진 미리보기 창입니다.
PDF 인식.
로컬 이미지 브라우저를 호출하여 이미지를 엽니다. #335
마지막 스크린샷을 반복하세요. #357
버그 수정: Windows 7 시스템의 문서 인식 호환성 문제.
HTTP/명령줄 인터페이스에 QR 코드 인식/생성 기능이 추가되었습니다. (#423)
QR 코드 인터페이스 문서.
Linux 플랫폼 포팅.
HTTP 문서 인식 인터페이스.
이는 예상되는 기능입니다. 인터페이스는 개발 초기 단계에서 예약되었으며 장기적으로 천천히 구현될 예정입니다.
다만, 개발 중 실제 여건에 따라 기능적 디자인이 변경될 수 있으며, 기능이 추가되거나 취소될 수 있습니다.
기본 플러그인 메커니즘을 리팩터링합니다.
온라인 OCR API 플러그인.
독립적인 수학 공식 인식 플러그인.
"수학 공식" 탭은 독립적인 수학 공식 인식/Latex 렌더링을 제공합니다.
업데이트 메커니즘을 확인하세요.
조판 분석 이외의 텍스트 후처리 모듈(예: 숫자 보존, 반각 문자 변환, 텍스트 오류 수정)
주요 인터페이스 기능은 이벤트 트리거링 방법을 추가합니다.
GPU 기반 오프라인 OCR.
그림 번역
오프라인 번역.
고정된 영역 인식.
테이블 이미지를 인식하여 엑셀로 출력합니다.
역사 기록 시스템.
MacOS/Ubuntu 및 기타 플랫폼과 호환됩니다.