中国語・英語・日本語
無料のオープンソース、バッチ対応のオフライン OCR ソフトウェア
Windows7 x64、Linux x64に適用可能
無料: このプロジェクトのすべてのコードはオープンソースで完全に無料です。
便利:解凍して使用でき、オフラインで実行でき、ネットワークは必要ありません。
効率的: 非常に効率的なオフライン OCR エンジンと組み込みの複数言語認識ライブラリが付属しています。
柔軟性: コマンド ラインや HTTP インターフェイスなどの外部呼び出しメソッドをサポートします。
機能: スクリーンショットOCR / バッチOCR / PDF認識 / QRコード / 数式認識
スクリーンショットの認識
植字分析 - さまざまなタイプのタイプを識別し、テキストを正しい順序で出力します。
バッチ識別
領域を無視 - スクリーンショットの透かしのテキストを除外します。
QR コードは QR コード画像のスキャンまたは生成をサポートします
文書認識により、PDF スキャンからテキストを抽出するか、2 層の検索可能な PDF に変換します。
グローバル設定
コマンドライン呼び出し
HTTPインターフェース
プロジェクトをビルドする (Windows、Linux)
開発者は、「プロジェクトの構築」を必ずお読みください。
次のリリース リンクは長期間維持されており、安定したバージョンのダウンロードを提供します。
Lanzoul Cloud https://hiroi-sora.lanzoul.com/s/umi-ocr (国内推奨、登録不要・速度無制限)
GitHub https://github.com/hiroi-sora/Umi-OCR/releases/latest
ソースフォージhttps://sourceforge.net/projects/umi-ocr
Scoop は、Windows 上で複数のアプリケーションを簡単に管理できるコマンド ライン インストール プログラムです。最初に Scoop をインストールしてから、次の手順に従ってUmi-OCR
インストールできます。
extras
バケットを追加します。
scoop bucket add extras
(オプション 1) Umi-OCR をインストールします ( Rapid-OCR
エンジンが付属しており、優れた互換性があります):
scoop install extras/umi-ocr
(オプション 2) Umi-OCR をインストールします ( Paddle-OCR
エンジンが付属しており、若干高速です):
scoop install extras/umi-ocr-paddle
ショートカットが上書きされる可能性があるため、両方を同時にインストールしないでください。ただし、いつでも追加のプラグインをインポートして、別の OCR エンジンに切り替えることができます。
ソフトウェア リリース パッケージは、 .7z
圧縮パッケージまたは.7z.exe
自己解凍パッケージとしてダウンロードされます。自己解凍パッケージは、圧縮ソフトウェアがインストールされていないコンピューターでもファイルを解凍できます。
このソフトウェアはインストールする必要がありません。解凍後、 Umi-OCR.exe
をクリックしてプログラムを起動します。
何か問題が発生した場合は、問題を送信してください。全力でサポートさせていただきます。
Umi-OCR がサポートするインターフェイスは複数の言語でサポートされています。ソフトウェアを初めて開くと、コンピュータのシステム設定に従って言語が自動的に切り替わります。
言語を手動で切り替える必要がある場合は、下図の全局设置
→语言/Language
を参照してください。
Umi-OCR v2 は、柔軟で使いやすい一連のタブで構成されています。好みに応じて必要なタブを開くことができます。
タブバーの左上隅でウィンドウを最上位に切り替えることができます。日常使用中に誤ってタブを閉じてしまうことを防ぐために、タブは右上隅でロックできます。
スクリーンショット OCR : このページを開いた後、ショートカット キーを使用してスクリーンショットを呼び出し、画像内のテキストを認識できます。
左側の画像プレビューバーでは、マウスで直接選択してコピーできます。
右側の識別記録欄では、テキストの編集や複数の記録を選択してコピーすることができます。
また、画像を他の場所にコピーして Umi-OCR に貼り付けて認識することもできます。
数式認識機能について
OCR テキスト後処理 - 組版分析ソリューションについて: OCR 結果の組版と順序を整理して、テキストをより読みやすく、使用しやすいものにすることができます。デフォルトのプラン:
多栏-按自然段换行
: ほとんどのシナリオに適しており、複数段組みのレイアウトを自動的に認識し、自然な段落ルールに従って行を折り返します。
多栏-总是换行
: 各ステートメントはラップされます。
多栏-无换行
: すべてのステートメントを強制的に同じ行にマージします。
单栏-按自然段换行
/总是换行
/无换行
: 上記と似ていますが、複数列のレイアウトは区別されません。
单栏-保留缩进
: コードのスクリーンショットを解析し、行頭のインデントと行内のスペースを保持するのに適しています。
不做处理
: OCR エンジンの元の出力。デフォルトで各ステートメントに改行が含まれます。
上記のソリューションは、水平および垂直 (右から左) の組版を自動的に処理できます。 (縦書きテキストには OCR エンジン自体のサポートも必要です)
バッチ OCR : このページは、認識のためにローカル画像をバッチインポートするために使用されます。
サポートされている形式: jpg, jpe, jpeg, jfif, png, webp, bmp, tif, tiff
。
認識結果を保存するためにサポートされている形式: txt, jsonl, md, csv(Excel)
。
スクリーンショット OCR と同様に、OCR テキストのレイアウトと順序を整理するための文本后处理
機能をサポートしています。
数に上限はなく、タスク用に一度に数百枚の画像をインポートできます。
タスク完了後の自動シャットダウン/スタンバイをサポートします。
ピクセルが大きい長い画像や大きな画像を認識したい場合は、ページ設定→テキスト認識→画像の辺の長さを制限→[値を増やす]を調整してください。
忽略区域
特別な機能があります。
OCR テキストの後処理について - 領域の無視: バッチ OCR の特別な機能で、画像内の不要なテキストを除外するのに適しています。
無視領域エディターは、バッチ識別ページの右側の列の設定で入力できます。
上の例のように、画像の右上隅と右下隅に複数の透かし/ロゴがあります。このような画像を一括して認識すると、透かしが認識結果に影響を及ぼします。
右ボタンを押したまま、複数の長方形のボックスを描画します。これらの領域内のテキストはミッションでは無視されます。
透かしの可能なすべての位置を完全にカバーできるように、長方形のフレームをできるだけ大きくするようにしてください。
無視される領域ボックス内のテキスト ブロック全体 (個々の文字ではない) のみが無視されることに注意してください。下の図に示すように、黄色の境界線が付いた暗い四角形は無視される領域です。その場合、 key_mouse
のみが無視されます。 2 つのテキスト ブロックpubsub_connector.py
とpubsub_service.py
は保持されます。
文書の識別:
サポートされている形式: pdf, xps, epub, mobi, fb2, cbz
。
スキャンした文書に対して OCR を実行するか、元のテキストを抽出します。 2 層の検索可能な PDFとしてエクスポートできます。
ヘッダーとフッターのテキストを除外するために使用できる無視領域の設定をサポートします。
タスクの完了後に自動的にシャットダウン/休止状態になるように設定できます。
スキャンコード:
スクリーンショットを撮ったり、ローカル画像に貼り付けたり、ドラッグしたりして、そこに含まれる QR コードとバーコードを読み取ります。
1 つの画像に対して複数のコードをサポートします。
次の 19 のプロトコルをサポートします。
Aztec
、 Codabar
、 Code128
、 Code39
、 Code93
、 DataBar
、 DataBarExpanded
、 DataMatrix
、 EAN13
、 EAN8
、 ITF
、 LinearCodes
、 MatrixCodes
、 MaxiCode
、 MicroQRCode
、 PDF417
、 QRCode
、 UPCA
、 UPCE
コードを生成します:
テキストを入力し、QR コード画像を生成します。
19 のプロトコル、エラー訂正レベル、その他のパラメーターをサポートします。
グローバル設定: ここでは、ソフトウェアのグローバルパラメータを調整できます。よく使用される関数は次のとおりです。
ショートカットを追加したり、ワンクリックで起動時に自動起動を設定したりできます。
インターフェース言語を変更します。 Umi は繁体字中国語、英語、日本語、その他の言語をサポートしています。
インターフェイスのテーマを切り替えます。 Umi には複数の明るい/暗いテーマがあります。
インターフェーステキストのサイズとフォントを調整します。
OCRプラグインを切り替えます。
レンダラー: ソフトウェア インターフェイスは、デフォルトでグラフィック カードの高速レンダリングをサポートします。スクリーンショットがちらつき、マシン上で UI がずれている場合は、界面和外观
→渲染器
調整するか、別のレンダリング スキームに切り替えてみるか、ハードウェア アクセラレーションをオフにしてください。
コマンドラインマニュアル
HTTPインターフェースマニュアル
Umi-OCR へのローカリゼーション翻訳作業に貢献していただいた以下の翻訳者に感謝します: (順不同でリストされています)
翻訳者 | 貢献言語 |
---|---|
ボブ | 英語、繁体字中国語、日本語 |
高清正 | 英語、繁体字中国語 |
ウェン・チアリン | 英語、繁体字中国語 |
リンゾウ | 英語、繁体字中国語 |
エリック・グオ | 英語 |
スティーブン0081 | 英語 |
マルコス1世 | 英語 |
プラム7x | 繁体字中国語 |
ヒューゴアル | 繁体字中国語 |
ドコモ光 | 日本語 |
ヤン・ペン | ポルトガル語 |
情報が間違っていたり、担当者が不足している場合は、このディスカッションでご返信ください。
このプロジェクトでは、ローカリゼーション翻訳コラボレーションにオンライン プラットフォーム Weblate: Umi-OCR を使用します。あらゆるユーザーが翻訳作業に参加することを歓迎します。校正したり、既存の言語を補足したり、新しい言語を追加したりすることができます。
メイン倉庫?
プラグインライブラリ
Windows ランタイム
Linux ランタイム
**
接尾辞は、このウェアハウス (主仓库
) に含まれるコンテンツを示します。
Umi-OCR ├─ Umi-OCR.exe ├─ umi-ocr.sh └─ UmiOCR-data ├─ main.py ** ├─ version.py ** ├─ qt_res ** │ └─ 项目qt资源,包括图标和qml源码 ├─ py_src ** │ └─ 项目python源码 ├─ plugins │ └─ 插件 └─ i18n ** └─ 翻译文件
サポートされているオフライン OCR エンジン:
パドルOCR-json
RapidOCR-json
実行環境フレームワーク:
PyStand カスタマイズ版
変更ログの冒頭にある手順を参照してください。
対応するプラットフォームの開発/運用環境の展開を完了するには、次のウェアハウスにジャンプしてください。
窓
Linux
Umi-OCR プロジェクトは主に作者 hiroi-sora によって余暇に開発および保守されています。このソフトウェアが気に入ったら、スポンサーになってください。
国内ユーザーは、iPower を通じて著者のスポンサーになることができます。
タブフレーム。
OCR API コントローラー。
OCRタスクコントローラー。
テーママネージャーは、明るいテーマと暗いテーマの切り替えをサポートしています。
バッチ OCRを実装します。
スクリーンショット OCR を実装します。
ショートカットキーの仕組み。
システムトレイメニュー。
テキスト ブロックの後処理 (組版の最適化)。
エンジンのメモリのクリーンアップ。
ソフトウェア インターフェイスは複数の言語で利用できます。
コマンドラインモード。
Win7対応。
Excel(csv)出力形式です。
Esc
スクリーンショット操作を中断します
外部テーマファイル
フォントの切り替え
読み込みアニメーション
そのエリアは無視してください。
QRコード認識。
バッチ認識ページの画像プレビュー ウィンドウ。
PDF認識。
ローカル画像ブラウザを呼び出して画像を開きます。 #335
最後のスクリーンショットを繰り返します。 #357
バグ修正: Windows 7 システムにおけるドキュメント認識の互換性の問題。
HTTP/コマンドラインインターフェースにQRコード認識・生成機能を追加。 (#423)
QR コード インターフェイスのドキュメント。
Linux プラットフォームの移植。
HTTP ドキュメント認識インターフェイス。
これらのインターフェイスは開発の初期段階で予約されており、長期的には徐々に実装される予定です。
ただし、開発中の実情により、機能設計の変更や機能の追加・廃止が行われる場合があります。
基礎となるプラグイン メカニズムをリファクタリングします。
オンライン OCR API プラグイン。
独立した数式認識プラグイン。
「数式」タブは、独立した数式認識/Latex レンダリングを提供します。
更新メカニズムを確認してください。
組版分析以外のテキスト後処理モジュール (数字の保存、半角文字変換、テキスト エラー修正など)。
主要なインターフェイス関数により、イベント トリガー メソッドが追加されます。
GPU ベースのオフライン OCR。
画像翻訳
オフライン翻訳。
エリア認識を修正しました。
表画像を認識してExcelに出力します。
履歴記録システム。
MacOS / Ubuntu およびその他のプラットフォームと互換性があります。