Chinesisch • Englisch • Japanisch
Kostenlose, quelloffene, stapelfähige Offline-OCR-Software
Anwendbar auf Windows7 x64, Linux x64
Kostenlos : Der gesamte Code in diesem Projekt ist Open Source und völlig kostenlos.
Praktisch : Entpacken und verwenden, offline ausführen, kein Netzwerk erforderlich.
Effizient : Es verfügt über eine hocheffiziente Offline-OCR-Engine und integrierte Bibliotheken zur Erkennung mehrerer Sprachen.
Flexibel : Unterstützt externe Aufrufmethoden wie Befehlszeile und HTTP-Schnittstelle.
Funktionen : Screenshot-OCR / Batch-OCR / PDF-Erkennung / QR-Code / Formelerkennung
Screenshot-Erkennung
Satzanalyse – Identifizieren Sie verschiedene Schrifttypen und geben Sie den Text in der richtigen Reihenfolge aus
Chargenidentifikation
Bereich ignorieren – Text am Screenshot-Wasserzeichen ausschließen
QR-Code unterstützt das Scannen oder Generieren von QR-Code-Bildern
Die Dokumentenerkennung extrahiert Text aus PDF-Scans oder wandelt sie in zweischichtige durchsuchbare PDFs um
Globale Einstellungen
Befehlszeilenaufruf
HTTP-Schnittstelle
Erstellen Sie das Projekt (Windows, Linux)
Entwickler lesen bitte unbedingt Bauprojekte.
Die folgenden Release-Links werden seit langem gepflegt und bieten Downloads stabiler Versionen.
Lanzoul Cloud https://hiroi-sora.lanzoul.com/s/umi-ocr (inländische Empfehlung, keine Registrierung/unbegrenzte Geschwindigkeit)
GitHub https://github.com/hiroi-sora/Umi-OCR/releases/latest
Source Forge https://sourceforge.net/projects/umi-ocr
Scoop ist ein Befehlszeilen-Installationsprogramm unter Windows, mit dem mehrere Anwendungen problemlos verwaltet werden können. Sie können zuerst Scoop installieren und dann die folgenden Anweisungen verwenden, um Umi-OCR
zu installieren:
extras
Bucket hinzufügen:
scoop bucket add extras
(Optional 1) Installieren Sie Umi-OCR (wird mit Rapid-OCR
-Engine geliefert, gute Kompatibilität):
scoop install extras/umi-ocr
(Optional 2) Installieren Sie Umi-OCR (wird mit Paddle-OCR
Engine geliefert, etwas schneller):
scoop install extras/umi-ocr-paddle
Installieren Sie nicht beide gleichzeitig, da die Verknüpfungen möglicherweise überschrieben werden. Sie können aber jederzeit weitere Plug-Ins importieren und auf andere OCR-Engines wechseln.
Das Software-Release-Paket wird als komprimiertes .7z
Paket oder als selbstextrahierendes .7z.exe
Paket heruntergeladen. Selbstextrahierende Pakete können Dateien auf Computern dekomprimieren, auf denen keine Komprimierungssoftware installiert ist.
Diese Software erfordert keine Installation. Klicken Sie nach dem Entpacken auf Umi-OCR.exe
, um das Programm zu starten.
Wenn Sie auf Probleme stoßen, senden Sie bitte ein Problem. Ich werde mein Bestes geben, um Ihnen zu helfen.
Die von Umi-OCR unterstützte Schnittstelle ist in mehreren Sprachen verfügbar. Wenn Sie die Software zum ersten Mal öffnen, wird die Sprache automatisch entsprechend den Systemeinstellungen Ihres Computers umgeschaltet.
Wenn Sie die Sprache manuell umschalten müssen, sehen Sie sich bitte die folgende Abbildung an:全局设置
→语言/Language
.
Umi-OCR v2 besteht aus einer Reihe flexibler und benutzerfreundlicher Registerkarten . Sie können die erforderlichen Registerkarten nach Ihren Wünschen öffnen.
Sie können das Fenster in der oberen linken Ecke der Tab-Leiste nach oben schalten. Die Laschen können in der oberen rechten Ecke verriegelt werden, um ein versehentliches Schließen der Laschen im täglichen Gebrauch zu verhindern.
Screenshot-OCR : Nach dem Öffnen dieser Seite können Sie mithilfe von Tastenkombinationen den Screenshot aufrufen und den Text im Bild erkennen.
In der Bildvorschauleiste links können Sie direkt mit der Maus auswählen und kopieren.
In der Spalte „Identifikationsdatensatz“ auf der rechten Seite kann Text bearbeitet und mehrere Datensätze ausgewählt und kopiert werden.
Es unterstützt auch das Kopieren von Bildern an anderer Stelle und das Einfügen in Umi-OCR zur Erkennung.
Über die Formelerkennungsfunktion
Informationen zur OCR-Textnachbearbeitung – Lösung zur Satzanalyse : Der Satz und die Reihenfolge der OCR-Ergebnisse können so organisiert werden, dass der Text besser zum Lesen und Verwenden geeignet ist. Standardplan:
多栏-按自然段换行
: Geeignet für die meisten Szenarien, erkennt automatisch das mehrspaltige Layout und bricht Zeilen gemäß den Regeln natürlicher Absätze um.
多栏-总是换行
: Jede Anweisung wird umbrochen.
多栏-无换行
: Erzwingt die Zusammenführung aller Anweisungen in derselben Zeile.
单栏-按自然段换行
/总是换行
/无换行
: ähnlich wie oben, unterscheidet jedoch nicht zwischen mehrspaltigen Layouts.
单栏-保留缩进
: Geeignet zum Parsen von Code-Screenshots, wobei die Einrückung am Zeilenanfang und die Leerzeichen in der Zeile beibehalten werden.
不做处理
: Die Originalausgabe der OCR-Engine, standardmäßig mit Zeilenumbrüchen für jede Anweisung.
Die oben genannten Lösungen können automatisch den horizontalen und vertikalen Schriftsatz (von rechts nach links) verarbeiten. (Vertikaler Text erfordert auch die Unterstützung der OCR-Engine selbst)
Batch-OCR : Diese Seite wird zum Batch-Import lokaler Bilder zur Erkennung verwendet.
Unterstützte Formate: jpg, jpe, jpeg, jfif, png, webp, bmp, tif, tiff
.
Unterstützte Formate zum Speichern von Erkennungsergebnissen: txt, jsonl, md, csv(Excel)
.
Wie Screenshot-OCR unterstützt es die文本后处理
, um das Layout und die Reihenfolge von OCR-Text zu organisieren.
Es gibt keine Obergrenze für die Anzahl und es können Hunderte von Bildern gleichzeitig für Aufgaben importiert werden.
Unterstützt automatisches Herunterfahren/Standby nach Abschluss der Aufgabe.
Wenn Sie lange oder große Bilder mit übergroßen Pixeln erkennen möchten, passen Sie bitte an: Seiteneinstellungen → Texterkennung → Bildseitenlänge begrenzen → [Wert erhöhen] .
Verfügt über eine spezielle Funktionalität忽略区域
.
Informationen zur OCR-Textnachbearbeitung – Bereiche ignorieren : Eine spezielle Funktion in der Stapel-OCR, die zum Ausschließen unerwünschten Textes in Bildern geeignet ist.
Der Ignorierbereich-Editor kann in den Einstellungen der rechten Spalte der Seite zur Chargenidentifizierung eingegeben werden.
Wie im obigen Beispiel befinden sich in der oberen und unteren rechten Ecke des Bildes mehrere Wasserzeichen/LOGOs. Wenn solche Bilder stapelweise erkannt werden, beeinträchtigen Wasserzeichen die Erkennungsergebnisse.
Halten Sie die rechte Taste gedrückt und zeichnen Sie mehrere rechteckige Kästchen. Text in diesen Bereichen wird in der Mission ignoriert.
Bitte versuchen Sie, den rechteckigen Rahmen so groß wie möglich zu machen, um alle möglichen Stellen des Wasserzeichens vollständig abzudecken.
Beachten Sie, dass nur der gesamte Textblock innerhalb des Felds „Region ignorieren“ (nicht einzelne Zeichen) ignoriert wird. Wie in der Abbildung unten gezeigt, ist das dunkle Rechteck mit gelbem Rand ein ignorierter Bereich. Dann wird nur key_mouse
ignoriert. Die beiden Textblöcke pubsub_connector.py
und pubsub_service.py
bleiben erhalten.
Dokumentenidentifikation :
Unterstützte Formate: pdf, xps, epub, mobi, fb2, cbz
.
Führen Sie OCR für gescannte Dokumente durch oder extrahieren Sie Originaltext. Kann als durchsuchbares PDF mit zwei Ebenen exportiert werden.
Unterstützt das Festlegen von Ignorierungsbereichen , die zum Ausschließen von Kopf- und Fußzeilentext verwendet werden können.
Kann so eingestellt werden, dass es nach Abschluss der Aufgabe automatisch heruntergefahren/in den Ruhezustand versetzt wird .
Code scannen :
Machen Sie einen Screenshot, fügen Sie ihn ein oder ziehen Sie ihn in ein lokales Bild und lesen Sie den darin enthaltenen QR-Code und Barcode.
Unterstützt mehrere Codes für ein Bild.
Unterstützt 19 Protokolle wie folgt:
Aztec
, Codabar
, Code128
, Code39
, Code93
, DataBar
, DataBarExpanded
, DataMatrix
, EAN13
, EAN8
, ITF
, LinearCodes
, MatrixCodes
, MaxiCode
, MicroQRCode
, PDF417
, QRCode
, UPCA
, UPCE
Code generieren :
Geben Sie Text ein und generieren Sie ein QR-Code-Bild.
Unterstützt 19 Protokolle und Fehlerkorrekturstufen sowie andere Parameter.
Globale Einstellungen : Hier können Sie die globalen Parameter der Software anpassen. Häufig verwendete Funktionen sind wie folgt:
Fügen Sie mit einem Klick Verknüpfungen hinzu oder stellen Sie den automatischen Start beim Booten ein.
Ändern Sie die Sprache der Benutzeroberfläche. Umi unterstützt traditionelles Chinesisch, Englisch, Japanisch und andere Sprachen.
Wechseln Sie das Interface- Thema . Umi hat mehrere Hell/Dunkel-Themen.
Passen Sie die Größe und Schriftart des Schnittstellentextes an.
OCR-Plugin wechseln.
Renderer : Die Softwareschnittstelle unterstützt standardmäßig das grafikkartenbeschleunigte Rendern. Wenn die Screenshots flackern und die Benutzeroberfläche auf Ihrem Computer falsch ausgerichtet ist, passen Sie bitte界面和外观
an →渲染器
, versuchen Sie, zu einem anderen Rendering-Schema zu wechseln, oder schalten Sie die Hardwarebeschleunigung aus.
Befehlszeilenhandbuch
Handbuch zur HTTP-Schnittstelle
Vielen Dank an die folgenden Übersetzer, die bei der Lokalisierungsübersetzung für Umi-OCR mitgewirkt haben: (in keiner bestimmten Reihenfolge aufgeführt)
Übersetzer | Beitragssprache |
---|---|
Bob | Englisch, traditionelles Chinesisch, Japanisch |
Qingzheng Gao | Englisch, traditionelles Chinesisch |
Weng, Chia-Ling | Englisch, traditionelles Chinesisch |
Linzow | Englisch, traditionelles Chinesisch |
Eric Guo | Englisch |
steven0081 | Englisch |
Marcos i | Englisch |
plum7x | Traditionelles Chinesisch |
Hugoalh | Traditionelles Chinesisch |
ドコモ光 | japanisch |
Yang Peng | Portugiesisch |
Sollten falsche Angaben vorliegen oder Personal fehlen, antworten Sie bitte in dieser Diskussion.
Dieses Projekt nutzt die Online-Plattform Weblate: Umi-OCR für die Zusammenarbeit bei der Lokalisierungsübersetzung. Wir begrüßen jeden Benutzer, der sich an der Übersetzungsarbeit beteiligt. Sie können Korrektur lesen, vorhandene Sprachen ergänzen oder neue Sprachen hinzufügen.
Hauptlager?
Plug-in-Bibliothek
Windows-Laufzeit
Linux-Laufzeit
Das Suffix **
gibt den in diesem Lager (主仓库
) enthaltenen Inhalt an.
Umi-OCR ├─ Umi-OCR.exe ├─ umi-ocr.sh └─ UmiOCR-data ├─ main.py ** ├─ version.py ** ├─ qt_res ** │ └─ 项目qt资源,包括图标和qml源码 ├─ py_src ** │ └─ 项目python源码 ├─ plugins │ └─ 插件 └─ i18n ** └─ 翻译文件
Unterstützte Offline-OCR-Engines:
PaddleOCR-json
RapidOCR-json
Laufumgebungs-Framework:
Angepasste PyStand-Version
Bitte beachten Sie die Anweisungen am Anfang des Änderungsprotokolls.
Bitte springen Sie zum folgenden Lager, um die Bereitstellung der Entwicklungs-/Betriebsumgebung der entsprechenden Plattform abzuschließen.
Windows
Linux
Das Umi-OCR-Projekt wird hauptsächlich vom Autor hiroi-sora in seiner Freizeit entwickelt und gepflegt. Wenn Ihnen diese Software gefällt, sponsern Sie sie bitte.
Inländische Benutzer können über iPower Autoren sponsern.
Tab-Rahmen.
OCR-API-Controller.
OCR-Task-Controller.
Der Theme-Manager unterstützt den Wechsel von hellen/dunklen Themes.
Implementieren Sie Batch-OCR .
Implementieren Sie Screenshot-OCR .
Tastenkombinationsmechanismus.
Menü in der Taskleiste.
Textblock-Nachbearbeitung (Satzoptimierung).
Bereinigung des Engine-Speichers.
Die Softwareoberfläche ist in mehreren Sprachen verfügbar.
Befehlszeilenmodus.
Win7-kompatibel.
Excel-Ausgabeformat (csv).
Esc
unterbricht den Screenshot-Vorgang
Externe Theme-Dateien
Schriftartwechsel
Ladeanimation
Ignorieren Sie den Bereich.
QR-Code-Erkennung.
Das Bildvorschaufenster der Stapelerkennungsseite.
PDF-Erkennung.
Rufen Sie den lokalen Bildbrowser auf, um das Bild zu öffnen. #335
Wiederholen Sie den letzten Screenshot. #357
Fehlerbehebung: Kompatibilitätsproblem bei der Dokumenterkennung im Windows 7-System.
HTTP/Befehlszeilenschnittstelle fügt QR-Code-Erkennungs-/Generierungsfunktion hinzu. (#423)
Dokumentation der QR-Code-Schnittstelle.
Portierung der Linux-Plattform.
HTTP-Dokumenterkennungsschnittstelle.
Diese erwarteten Funktionen wurden in den frühen Entwicklungsstadien reserviert und werden langfristig langsam implementiert.
Aufgrund der tatsächlichen Bedingungen während der Entwicklung kann es jedoch zu Änderungen am funktionalen Design und zu hinzugefügten oder gelöschten Funktionen kommen.
Refaktorieren Sie den zugrunde liegenden Plug-in-Mechanismus.
Online-OCR-API-Plug-in.
Unabhängiges Plug-in zur Erkennung mathematischer Formeln.
Die Registerkarte „Mathematische Formel“ bietet unabhängige mathematische Formelerkennung/Latex-Rendering.
Überprüfen Sie den Update-Mechanismus.
Andere Textnachbearbeitungsmodule als die Satzanalyse (z. B. Beibehaltung von Zahlen, Zeichenkonvertierung halber Breite, Textfehlerkorrektur).
Wichtige Schnittstellenfunktionen fügen ereignisauslösende Methoden hinzu.
GPU-basierte Offline-OCR.
Bildübersetzung
Offline-Übersetzung.
Feste Bereichserkennung.
Tabellenbilder erkennen und in Excel ausgeben.
Geschichtsaufzeichnungssystem.
Kompatibel mit MacOS/Ubuntu und anderen Plattformen.