AngelinaReaderダウンロード - AngelinaReaderソースコードのダウンロード

AngelinaReader

その他のソースコード

ダウンロード

アンジェリーナ点字の読者

アンジェリーナブリールリーダーは、光字点字認識システムです。写真の点字テキストをプレーンテキストに変換するように設計されています。

このソリューションは次のように利用可能です

ウェブサービスアンジェリーナブリールリーダー

AndroidアプリAngelina Braille Reader

これらのソリューションは最も実際のニューラルネットモデルを使用しているが、ここで利用可能なスタンドアロンインストールのモデルは常に最新ではないことに注意してください。

ソリューションの一般的な説明

ソリューションはWebサービスです。

ユーザーは、スマートフォンまたはデスクトップコンピューターの標準的なWebブラウザを介して対話します。結果は画像とテキストとして画面に表示され、ユーザーの電子メールに送信できます。

このソリューションは、パーソナルコンピューターのスタンドアロンプログラムとしてインストールすることもでき、コマンドラインインターフェイスを介して使用できます。

ビデオプレゼンテーション：https：//youtu.be/_vcvxptazom

このサービスは、アドレスで入手できます：http：//angelina-reader.ru

ソリューションキー機能

変形した点字ページの画像を処理できます
1つまたは2サイドの点字プリントアウトを認識できます
単一の画像を使用して、ページの右側とversoの両方の側面を認識できます
画像の正しい方向を自動的に見つけることができます
処理できます：
- アプリケーションから直接スマートフォンカメラで撮影した画像（モバイルWebバージョンのみ）
- 画像ファイル（JPGなど）
- PDFファイル
- 画像付きのzip-archives
結果はユーザーの電子メールに送信できます
ロシア語、英語、ドイツ語、ウズベック語、ラトビア語、ギリシャ語の点字のテキストを認識できます

制限

ページ画像は、トップビューからほぼ撮影する必要があります
ページの上部から光が落ちる必要があります。つまり、ページに配置された主題の影は、ページの下部に向けられている必要があります。ページの下側からのトップライト、サイドライト、ライトは許可されていません。
点字のシンボルは、小さすぎたり大きすぎたりしてはなりません。標準の点字テキストを備えた最適なA4ページは、画像領域全体を占有する必要があります。

プロジェクトで使用されるアプローチ

点字記号は、オブジェクト検出CNNを使用して検出されます（Retinanet https://arxiv.org/abs/1708.02002）
プライマリネットワークトレーニングは、DSBIデータセットを使用して行われました
追加のトレーニングデータは、以前のラウンドデータセットでトレーニングされたCNNによって生成された結果の数回の手動修正を使用して作成されました
最初のラウンドで詩のテキストが使用され、元のテキストとの行ごとの比較を使用してエラーが見つかりました
後の段階では、スペルチェッカーを使用して認識エラーが見つかりました
World AI＆Data Challenge Contestが提供するデータセットからの76ページの注釈を含む、360ページのシングルサイドの手書きおよび2サイドの印刷された点字テキストの新しい注釈付きデータセットが準備されています。このデータセットは後で公開されます。
正しいページの向きを自動検索するために、ページは4つの可能な方向すべてで処理され、最も広いスプレッドブリールチャーの最大存在の方向が選択されます
認識またはversoサイドテキストのために、効果を使用して、へこみのあるポイントが反転した画像で視覚的に凸になった。画像を反転させ、水平方向に裏返して、面倒を認識します。
ヒューリスティックアルゴリズムを使用して、検出されたシンボルから文字列を形成します。
点字の解釈ルールがコーディングされるアルゴリズムを使用して、点字記号を単純なロシア語または英語のテキストに翻訳します。

環境要件

スタンドアロンワークステーションには、少なくとも3GBメモリ（つまり、GeForce GTX 1050 3GB以上）を備えたNVIDIA GPUが必要です。WebServerには、少なくとも4GB GPUメモリ（GeForce GTX 1050TI以上）が必要です。

OS：ubuntu、windows
CUDA 10.2
Python 3.6+
Pythonパッケージは、要件を参照してください。txt

Pythonパスをパスに追加する必要があります。

クライアントには標準のWebブラウザー（Chrome、Firefox）が必要です

インストール

1.アンジェリーナブリールリーダーをインストールします

 git clone --recursive https://github.com/IlyaOvodov/AngelinaReader.git
cd AngelinaReader
pip install --upgrade pip
pip install -r requirements.txt

2。ニューラルネットモデルをダウンロードします

 wget -O weights/model.t7 http://ovdv.ru/files/retina_chars_eced60.clr.008

これらのソリューションは最も実際のニューラルネットモデルを使用しているが、ここで利用可能なスタンドアロンインストールのモデルは常に最新ではないことに注意してください。

3. Liblouisライブラリをインストールします

liblouisをダウンロードしてインストールします：

liblouis（ソース）をダウンロードして開梱する
Linuxについて説明したように、またはWindowsについて説明したようにLiblouisをインストールします
ここで説明するように、LiblouisのPythonバインディングをインストールします

For Windows: update liblouis_tables_path_prefix parameter in AngelinaReaderlocal_config.py file with path to Liblouis tables, including trailing "/"

4. Webアプリを実行します

 python run_web_app.py

Windows：PIPディレクトリ（IE <python>Scripts ）をパスに追加する必要があります。
Python 3とPython 2.7の両方がインストールされている場合は、 pythonとpip Python3を開始することを確認してください。

ブラウザでhttp://127.0.0.1:5000を開きます。アプリケーションのメインページを表示する必要があります。

インターネットフォワードポート80からサーバーのポート5000にアプリケーションにアクセスします。ローカルでサービスをテストする必要はありません（http://127.0.0.1:5000アドレス）。

使用法

Webサービスとして使用します

Start Server： python run_web_app.py for windows：bat-file start_web_app.batを使用できます

オープンページhttp://127.0.0.1:5000ブラウザで。指示に従ってください。

いくつかの点字記号をアプリケーションによって解釈できない場合、それらは~?~として表示されます。

Webアプリケーションの使用は、簡単なビデオ：https：//youtu.be/_vcvxptazomおよびビデオプレゼンテーションhttps://youtu.be/_vcvxptazomで実証されています。

コマンドラインインターフェイス

python run_local.py [-h] [-l LANG] [-o] [-2] input [results_dir]
または、Windowsで：
start.bat [-h] [-l LANG] [-o] [-2] input [results_dir]
パラメーター：
input - 画像ファイル（jpg、pngなど）、pdfファイル、画像またはディレクトリ名のzipファイル。
ディレクトリ名またはzipファイルが提供されている場合、その中のすべての画像ファイルとPDFファイルが処理されます。
results_dir結果を配置するフォルダー。提供されない場合、入力ファイルフォルダーが使用されます。入力ファイルごとにファイルが作成されます<input file>.marked.txtプレーンテキストフォームと<input file>.marked.jpgが入力画像に印刷されたプレーンテキストが付いています。
-l <language> - 入力ドキュメント言語（デフォルトはru）。英語のテキストに-l EN 、ギリシャ語などには-l GR使用します。言語リストを参照してください。 -o自動オフのオフをオフにします。自動オリエンテーションが誤って動作する場合があります（非典型的なテキストの場合、または多くの認識エラーがある場合）。このような場合、画像の向きを手動で調整し、 -oオプションを使用します。
-2両側のプリントアウトの右側と裏面の両方を認識します。 Verso Sideの結果は<input file>.rev.marked.txt <input file>.rev.marked.jpgファイルに保存されます。
-hヘルプを印刷します。