AngelinaReader Download - AngelinaReader Quellcode Download

AngelinaReader

Anderer Quellcode

Herunterladen

Angelina Braille Leser

Angelina Braille Reader ist ein optisches Braille -Erkennungssystem. Es wurde entwickelt, um Braille -Text auf Fotos in einfache Text umzuwandeln.

Diese Lösung ist als verfügbar als

Webdienst Angelina Braille Reader

Bild

Android App Angelina Braille Reader

Bild

Beachten Sie, dass diese Lösungen das tatsächlichste neuronale Netzmodell verwenden, während das hier verfügbare Modell für die eigenständige Installation nicht immer auf dem neuesten Stand ist.

Allgemeine Beschreibung der Lösung

Die Lösung ist ein Web-Service.

Benutzer interagieren mit IT über einen Standard -Webbrowser auf einem Smartphone oder einem Desktop -Computer. Die Ergebnisse werden auf dem Bildschirm als Bilder und Text angezeigt und können an die E-Mail des Benutzers gesendet werden.

Diese Lösung kann auch als eigenständiges Programm auf einem PC installiert und über eine Befehlszeilenschnittstelle verwendet werden.

Videopräsentation: https://youtu.be/_vcvxptazom

Dieser Service ist unter der Adresse erhältlich: http://angelina-reader.ru

Lösungsschlüsselfunktionen

Können Bilder von deformierten Braille -Seiten verarbeiten
Kann entweder ein- oder zweiseitige Braille-Ausdrucke erkennen
Kann sowohl Recto als auch Verso -Seiten einer Seite mit einem einzelnen Bild erkennen
Kann automatisch die richtige Ausrichtung eines Bildes finden
Kann verarbeiten:
- Bilder, die auf einer Smartphone -Kamera direkt aus der Anwendung aufgenommen wurden (nur mobile Webversion)
- Bilddateien (JPG usw.)
- PDF -Dateien
- Zip-Archives mit Bildern
Die Ergebnisse können an die E-Mail des Benutzers gesendet werden
Kann russische, englische, deutsche, usbekische, lettische und griechische Braille -Texte erkennen

Einschränkungen

Das Seitenbild muss ungefähr aus einer Top -Ansicht genommen werden
Licht muss von der Oberseite der Seite fallen. Der Schatten eines auf einer Seite platzierten Betreffs muss am unteren Seite der Seite gerichtet sein. Oberlicht, Seitenlicht und Licht von der unteren Seite der Seite sind nicht erlaubt.
Braille -Symbole dürfen nicht zu klein oder zu groß sein. Optimal A4 -Seite mit Standard -Braille -Text muss den gesamten Imagebereich besetzen.

Ansätze, die im Projekt verwendet werden

Braille -Symbole werden unter Verwendung von Objekterkennungs -CNN (Retinanet https://arxiv.org/abs/1708.02002) nachgewiesen.
Das primäre Netzwerktraining wurde mit dem DSBI -Datensatz durchgeführt
Zusätzliche Trainingsdaten wurden unter Verwendung mehrerer Runden der manuellen Korrektur der von CNN erzeugten Ergebnisse erstellt
In den ersten Runden wurden Gedichttexte verwendet, und es wurden Fehler unter Verwendung von Linien-für-Linie-Vergleich mit dem Originaltext gefunden
In späteren Phasen wurden Erkennungsfehler unter Verwendung eines Zauberprüfers gefunden
Ein neuer kommentierter Datensatz von 360 Seiten mit einseitigen handgeschriebenen und zweiseitigen gedruckten Braille-Texten wird erstellt, einschließlich Annotation von 76 Seiten aus dem Datensatz, der vom World AI & Data Challenge Challenge-Wettbewerb bereitgestellt wird. Dieser Datensatz wird später veröffentlicht.
Für eine automatische Suche nach der korrekten Seitenorientierung wird die Seite in allen 4 möglichen Orientierungen verarbeitet, und die Ausrichtung mit der maximalen Anwesenheit der weit verbreiteten Braille-SHARS wird ausgewählt
Um das Erkennen oder Verso -Nebentext zu erkennen, verwenden wir den Effekt, dass verbeulte Punkte auf dem umgekehrten Bild visuell konvex wurden. Wir umkehren ein Bild und drehen es horizontal um, um die Rückseite zu erkennen.
Wir verwenden einen heuristischen Algorithmus, um Strings aus erkannten Symbolen zu bilden.
Wir übersetzen Braille -Symbole in einen einfachen russischen oder englischen Text unter Verwendung eines Algorithmus, in dem Braille -Interpretationsregeln codiert werden.

Umgebungsanforderungen

Die eigenständige Workstation erfordert die NVIDIA-GPU mit mindestens 3 GB Speicher (dh Geforce GTX 1050 3 GB oder besser). Web-Server benötigt mindestens 4 GB GPU-Speicher (GeForce GTX 1050TI oder besser)

OS: Ubuntu, Windows
CUDA 10.2
Python 3.6+
Python -Pakete siehe Anforderungen.txt

Der Python -Pfad sollte zum Pfad hinzugefügt werden.

Ein Client benötigt einen Standard-Webbrowser (Chrome, Firefox)

Installation

1. Installieren Sie Angelina Braille Reader

 git clone --recursive https://github.com/IlyaOvodov/AngelinaReader.git
cd AngelinaReader
pip install --upgrade pip
pip install -r requirements.txt

2. Download Neural Net Model

 wget -O weights/model.t7 http://ovdv.ru/files/retina_chars_eced60.clr.008

Beachten Sie, dass diese Lösungen das tatsächlichste neuronale Netzmodell verwenden, während das hier verfügbare Modell für die eigenständige Installation nicht immer auf dem neuesten Stand ist.

3. Installieren Sie die Liblouis -Bibliothek

Liblouis herunterladen und installieren:

Laden Sie LIBLOUIS (Quelle) herunter und packen Sie sie aus)
Installieren Sie Liblouis wie für Linux oder hier beschrieben für Windows hier für Windows
Installieren Sie Python -Bindungen für Liblouis, wie hier beschrieben

Für Windows: Aktualisieren Sie liblouis_tables_path_prefix Parameter in AngelinaReaderlocal_config.py -Datei mit Pfad zu LIBLOUIS -Tabellen, einschließlich Nachverfolgung "/"

4. Führen Sie die Web -App aus

 python run_web_app.py

Windows: PIP -Verzeichnis (dh <python>Scripts ) sollte zum Pfad hinzugefügt werden.
Stellen Sie sicher, dass python und pip Python3 starten, wenn sowohl Python 3 als auch Python 2.7 installiert sind.

Öffnen Sie http://127.0.0.1:5000 in einem Browser. Die Hauptseite der Anwendung sollte angezeigt werden.

So greifen Sie auf die Anwendung vom Internet -Forward -Port 80 auf Port 5000 des Servers zu. Es ist nicht erforderlich, den Dienst lokal zu testen (unter http://127.0.0.1:5000 Adresse).

Verwendung

Verwenden Sie als Webdienst

Startserver: python run_web_app.py für Windows: Sie können Bat-File start_web_app.bat verwenden

Öffnen Sie die Seite http://127.0.0.1:5000 in einem Browser. Befolgen Sie die Anweisungen.

Wenn einige Braille -Symbole nicht von der Anwendung interpretiert werden können, werden sie als ~?~ angezeigt.

Die Verwendung von Web-Application wird in einem kurzen Video demonstriert: https://youtu.be/_vcvxptazom und in einer Videopräsentation https://youtu.be/_vcvxptazom

Befehlszeilenschnittstelle

python run_local.py [-h] [-l LANG] [-o] [-2] input [results_dir]
oder in Windows:
start.bat [-h] [-l LANG] [-o] [-2] input [results_dir]
Parameter:
input - Bilddatei (JPG, PNG usw.), PDF -Datei, ZIP -Datei mit Bildern oder Verzeichnisnamen.
Wenn der Verzeichnisname oder die ZIP -Datei geliefert wird, werden alle Bild- und PDF -Dateien darin verarbeitet.
results_dir - Ordner zum Platzieren von Ergebnissen. Wenn nicht geliefert wird, wird der Ordner "Inputdateien" verwendet. Für jede Eingabedatei wird Dateien erstellt <input file>.marked.txt mit Ergebnissen in einem Klartextformular und <input file>.marked.jpg mit einem übergab gedruckten Text.
-l <language> - Dokumentsprache eingeben (Standard ist Ru). Verwenden Sie -l EN für englische Texte, -l GR für Griechisch usw. Siehe Sprachenliste unten. -o - Suchen Sie die automatische Ausrichtung aus. Manchmal kann die Autoorientierung falsch funktionieren (für nichttypische Texte oder wenn es viele Erkennungsfehler gibt). In solchen Fällen passen Sie die Bildorientierung manuell an und verwenden Sie die Option -o .
-2 -Erkennen Sie sowohl Recto- als auch Verso -Seiten von zweiseitigen Ausdrucken. Die Verso -Seiteergebnisse werden in <input file>.rev.marked.txt и <input file>.rev.marked.jpg -Dateien gespeichert.
-h - Druckhilfe.

Sprachen: RU LV Russian EN - Englisch (Klasse 1) DE - Deutsch Griechisch GR - Lettisch PL - Polnisch UZ - Usbek (kyrillisch) UZL - Usbek (Latein)