mindocrダウンロード - mindocrソースコードのダウンロード

mindocr

その他のソースコード

v0.3.1

ダウンロード

MindOCR

英語 | 中国語

導入

MindOCR は、MindSpore に基づく OCR 開発およびアプリケーション用のオープンソースツールボックスで、一連の主流のテキスト検出および認識アルゴリズム/モデルを統合し、使いやすいトレーニングおよび推論ツールを提供します。 DBNet/DBNet++ や CRNN/SVTR などの実世界のアプリケーションでの SoTA テキスト検出および認識モデルの開発と展開のプロセスを加速し、画像とテキストの理解のニーズを満たすのに役立ちます。

主な特長

モジュール設計: OCR タスクをいくつかの構成可能なモジュールに分離しました。ユーザーは、わずか数行のコードを変更するだけで、トレーニングおよび評価パイプラインをセットアップし、データ処理パイプラインとモデルアーキテクチャをカスタマイズできます。
ハイパフォーマンス: MindOCR は、OCR タスクで競争力のあるパフォーマンスに達する、最適化された構成でトレーニングされた一連の事前トレーニング済み重みを提供します。
低コストの適用: MindOCR には、テキスト検出および認識タスクを実行するための使いやすい推論ツールが提供されています。

以下は、対応するmindocrバージョンとサポートされている minndocr バージョンです。

マインドク	マインドスポア
マスター	マスター
0.4	2.3.0
0.3	2.2.10
0.1	1.8

インストール

詳細

前提条件

MindOCR は MindSpore AI フレームワークに基づいて構築されており、次のフレームワークバージョンと互換性があります。トレーニング用のインストールガイドラインについては、以下のインストールリンクを参照してください。

MindSpore [インストール] mindocrバージョンを参照して、正しい MindSpore バージョンをインストールしてください。
Python >= 3.7
openmpi 4.0.3 (分散トレーニング/評価用) [インストール]

MindSpore Lite オフライン推論については、「Lite オフライン環境のインストール」を参照してください。

依存

pip install -r requirements.txt

ソースからインストール (推奨)

git clone https://github.com/mindspore-lab/mindocr.git
cd mindocr
pip install -e .

「編集可能」モードで-e使用すると、モジュールのインポートに関する潜在的な問題の解決に役立ちます。

Dockerからインストール

詳細

提供されるdockerの環境情報は以下のとおりです。

OS：オイラー2.8
キャン：7.0
パイソン：3.9
マインドスポア：2.2.10
マインドスポアライト：2.2.10

以下の手順に従って docker をインストールしてください。

ダウンロードドッカー

910：

docker pull swr.cn-central-221.ovaijisuan.com/mindocr/mindocr_dev_910_ms_2_2_10_cann7_0_py39:v1

910*:

docker pull swr.cn-central-221.ovaijisuan.com/mindocr/mindocr_dev_ms_2_2_10_cann7_0_py39:v1

コンテナの作成

docker_name= " temp_mindocr "
# 910
image_name= " swr.cn-central-221.ovaijisuan.com/mindocr/mindocr_dev_910_ms_2_2_10_cann7_0_py39:v1 "
# 910*
image_name= " swr.cn-central-221.ovaijisuan.com/mindocr/mindocr_dev_ms_2_2_10_cann7_0_py39:v1 "

docker run --privileged --name ${docker_name} 
    --tmpfs /tmp 
    --tmpfs /run 
    -v /sys/fs/cgroup:/sys/fs/cgroup:ro 
    --device=/dev/davinci1 
    --device=/dev/davinci2 
    --device=/dev/davinci3 
    --device=/dev/davinci4 
    --device=/dev/davinci5 
    --device=/dev/davinci6 
    --device=/dev/davinci7 
    --device=/dev/davinci_manager 
    --device=/dev/hisi_hdc 
    --device=/dev/devmm_svm 
    -v /etc/localtime:/etc/localtime 
    -v /usr/local/Ascend/driver:/usr/local/Ascend/driver 
    -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi 
    --shm-size 800g 
    --cpus 96 
    --security-opt seccomp=unconfined 
    --network=bridge -itd ${image_name} bash

コンテナに入る

 # set docker id
container_id= " your docker id "
docker exec -it --user root $container_id bash

環境変数の設定コンテナに入ったら、次のコマンドで環境変数を設定します。
```
 source env_setup.sh
```

PyPIからインストール

pip install mindocr

このプロジェクトは現在開発中であるため、PyPI からインストールされたバージョンは現在古くなっています。 (すぐに更新されます)。

クイックスタート

1. テキストの検出と認識のデモ

MindOCR をインストールすると、次のようにして任意の画像に対してテキストの検出と認識を簡単に実行できます。

python tools/infer/text/predict_system.py --image_dir {path_to_img or dir_to_imgs} 
                                          --det_algorithm DB++  
                                          --rec_algorithm CRNN  
                                          --visualize_output True

実行後、結果はデフォルトで./inference_resultsに保存されます。結果の例を次に示します。

テキスト検出・認識結果の可視化

画像上のすべてのテキストが正確に検出され、認識されていることがわかります。詳しい使用方法については、チュートリアルの推論セクションを参照してください。

2. モデルのトレーニングと評価 - クイックガイドライン

tools/train.pyスクリプトを使用すると、OCR モデルを簡単にトレーニングできます。このスクリプトは、テキスト検出と認識モデルのトレーニングの両方をサポートします。

python tools/train.py --config {path/to/model_config.yaml}

--config引数は、トレーニングするモデルと、データプロセスパイプライン、オプティマイザー、lr スケジューラなどを含むトレーニング戦略を定義する yaml ファイルへのパスを指定します。

MindOCR は、SoTA OCR モデルとそのトレーニング戦略をconfigsフォルダーに提供します。たとえば、次のコマンドを実行することで、タスク/データセットに適応させることができます。

 # train text detection model DBNet++ on icdar15 dataset
python tools/train.py --config configs/det/dbnet/dbpp_r50_icdar15.yaml

 # train text recognition model CRNN on icdar15 dataset
python tools/train.py --config configs/rec/crnn/crnn_icdar15.yaml

同様に、 tools/eval.pyスクリプトを使用してトレーニングされたモデルを簡単に評価できます。

python tools/eval.py 
    --config {path/to/model_config.yaml} 
    --opt eval.dataset_root={path/to/your_dataset} eval.ckpt_load_path={path/to/ckpt_file}

詳細な図と使用法については、チュートリアルのモデルトレーニングセクションを参照してください。

3. オフライン推論のモデル化

MindOCR モデルまたはサードパーティモデル(PaddleOCR、MMOCR など) を使用して、MindOCR で MindSpore Lite 推論を実行できます。モデルのオフライン推論のチュートリアルを参照してください。

チュートリアル

データセット
- データセットの準備
- データ変換メカニズム
モデルのトレーニング
- Yaml 構成
- テキスト検出
- テキスト認識
- 分散型トレーニング
- アドバンス: 勾配累積、EMA、トレーニング再開など
MindSpore による推論
- Python オンライン推論
MindSpore Lite による推論
- モデルのオフライン推論のチュートリアル
開発者ガイド
- データセットのカスタマイズ
- データ変換のカスタマイズ
- 新しいモデルをカスタマイズする
- 後処理方法のカスタマイズ

機種一覧

テキスト検出

テキスト認識

レイアウト分析

YOLOv8 (Ultralytics Inc.)

重要な情報の抽出

レイアウトXLM (arXiv'2021)
LayoutLMv3 (arXiv'2022)

テーブル認識

テーブルマスター (arXiv'2021)

OCR大型モデル

さまざま (arXiv'2023)

トレーニングされたモデルの詳細なパフォーマンスについては、https://github.com/mindspore-lab/mindocr/blob/main/configs を参照してください。

MindSpore Lite 推論モデルのサポートの詳細については、MindOCR モデルサポートリストおよびサードパーティモデルサポートリスト (PaddleOCR など) を参照してください。

データセットリスト

MindOCR は、さまざまな形式の OCR データセットへのデータセット変換ツールを提供し、ユーザーによるカスタマイズされたデータセットをサポートします。モデルのトレーニング/評価において、次のパブリック OCR データセットを検証しました。

一般的な OCR データセット

Born-Digital Images [ダウンロード]
CASIA-10K [ダウンロード]
CCPD [ダウンロード]
中国語テキスト認識ベンチマーク [論文] [ダウンロード]
COCO-Text [ダウンロード]
CTW [ダウンロード]
ICDAR2015 [論文] [ダウンロード]
ICDAR2019 Art [ダウンロード]
LSVT [ダウンロード]
MLT2017 [論文] [ダウンロード]
MSRA-TD500 [用紙] [ダウンロード]
MTWI-2018 [ダウンロード]
RCTW-17 [ダウンロード]
ReCTS [ダウンロード]
SCUT-CTW1500 [紙] [ダウンロード]
スローイエ [ダウンロード]
SVT [ダウンロード]
SynText150k [論文] [ダウンロード]
SynthText [論文] [ダウンロード]
TextOCR [ダウンロード]
総文 [論文] [ダウンロード]

レイアウト解析データセット

PublayNet [論文] [ダウンロード]

重要な情報抽出データセット

XFUND [論文] [ダウンロード]

表認識データセット

PubTabNet [論文] [ダウンロード]

トレーニングと評価用にさらに多くのデータセットを含める予定です。このリストは継続的に更新されます。

よくある質問

環境の構成とminocrに関するよくある質問は、FAQを参照してください。

注意事項

新しいこと

ニュース

2023/04/01

新しいトレーニング済みモデルを追加する
- 重要な情報の抽出のための LayoutLMv3

2024/03/20

新しいトレーニング済みモデルを追加する
- Qwen-1.8B LLM ベースの物体検出と OCR 機能を提供する OCR 大型モデル用 Vary-toy

2023/12/25

新しいトレーニング済みモデルを追加する
- テーブル認識用のTableMaster
さらにベンチマークデータセットとその結果を追加する
- パブタブネット

2023/12/14

新しいトレーニング済みモデルを追加する
- 重要な情報を抽出するための LayoutXLM
- 重要な情報抽出用の VI-LayoutXLM
- テキスト検出用の PP-OCRv3 DBNet と認識用の PP-OCRv3 SVTR、オンライン推論と微調整をサポート
さらにベンチマークデータセットとその結果を追加する
- Xファンド
Ascend 910 の複数の仕様のサポート: DBNet ResNet-50、DBNet++ ResNet-50、CRNN VGG7、SVTR-Tiny、FCENet、ABINet

2023/11/28

PP-OCRv4 のオフライン推論サポートを追加
- テキスト検出用の PP-OCRv4 DBNet とテキスト認識用の PP-OCRv4 CRNN、オフライン推論をサポート
サードパーティモデルのオフライン推論のバグを修正

2023/11/17

新しいトレーニング済みモデルを追加する
- レイアウト分析用の YOLOv8
さらにベンチマークデータセットとその結果を追加する
- パブリネット

2023/07/06

新しいトレーニング済みモデルを追加する
- テキスト認識用の RobustScanner

2023/07/05

新しいトレーニング済みモデルを追加する
- テキスト認識用の VISIONLAN

2023/06/29

新しいトレーニング済みモデルを追加する
- テキスト検出用の FCENet
- テキスト認識用のマスター

2023/06/07

新しいトレーニング済みモデルを追加する
- テキスト検出用の PSENet
- EAST (テキスト検出用)
- テキスト認識用のSVTR
さらにベンチマークデータセットとその結果を追加する
- 全文
- mlt2017
- 中国語テキスト認識
トレーニングを予期せず中断した場合に使用できるトレーニング再開機能を追加します。使用法: yaml 構成のmodelフィールドにresumeパラメータを追加します。たとえば、 resume: True 、 {ckpt_save_dir}/train_resume.ckpt からトレーニングをロードして再開するか、またはresume: /path/to/train_resume.ckptからトレーニングをロードして再開します。指定されたパス。
検出のための後処理を改善します。デフォルトで、検出されたテキストポリゴンを元の画像空間に再スケールします。これは、「shape_list」をeval.dataset.output_columnsリストに追加することで有効にできます。
より多くのモデルをサポートするためにオンライン推論をリファクタリングします。詳細については、README.md を参照してください。

2023/05/15

新しいトレーニング済みモデルを追加する
- テキスト検出用の DBNet++
- テキスト認識用の CRNN-Seq2Seq
- SynthText で事前トレーニングされた DBNet が利用可能になりました: チェックポイント URL
さらにベンチマークデータセットとその結果を追加する
- シンセテキスト、MSRA-TD500、CTW1500
- DBNet のその他のベンチマーク結果は、ここで報告されています。
トップ k チェックポイントを保存するためのチェックポイントマネージャーを追加し、ログを改善します。
Python 推論コードがリファクタリングされました。
バグ修正: Meter を使用して大規模なデータセットの損失を平均化し、AMP トレーニングで ctcloss のpred_cast_fp32無効にし、無効なポリゴンが存在する場合のエラーを修正しました。

2023/05/04

yaml でチェックポイント URL またはローカルパスを使用してmodel-pretrainedた設定を介して、自己定義の事前トレーニングされたチェックポイントの読み込みをサポートします。
回転や反転を含む拡張を実行する確率の設定をサポートします。
モデルのトレーニングに指数移動平均 (EMA) を追加します。これは、yaml 構成でtrain-ema (デフォルト: False) とtrain-ema_decay設定することで有効にできます。
変更された引数パラメータ： num_columns_to_net -> net_input_column_index : ネットワークに供給される列番号を列インデックスに変更します。
変更された引数パラメータ： num_columns_of_labels -> label_column_index : ラベルに対応する列番号を列インデックスに変更します。

2023/04/21

パラメータのグループ化を追加して、トレーニングにおける柔軟な正則化をサポートします。使用法: yaml 設定にgrouping_strategy引数を追加して事前定義されたグループ化戦略を選択するか、 no_weight_decay_params引数を使用して重み減衰から除外するレイヤー (バイアス、ノルムなど) を選択します。例はconfigs/rec/crnn/crnn_icdar15.yamlで参照できます。
勾配累積を追加して、大規模なバッチサイズのトレーニングをサポートします。使用法: yaml 構成にgradient_accumulation_stepsを追加します (グローバルバッチサイズ =batch_size * devices * gradient_accumulation_steps)。例はconfigs/rec/crnn/crnn_icdar15.yamlで参照できます。
トレーニングの安定化をサポートするためにグラデーションクリップを追加します。 yaml 構成でgrad_clip True に設定して有効にします。

2023/03/23

ドロップオーバーフローアップデートと互換性のある動的ロススケーラーサポートを追加します。動的損失スケーラーを有効にするには、 loss_scaleのtypeをdynamicに設定してください。 YAML の例はconfigs/rec/crnn/crnn_icdar15.yamlで参照できます。

2023/03/20

引数名が変更されました: output_keys -> output_columns 、 num_keys_to_net -> num_columns_to_net
データパイプラインが更新されました

2023/03/13

システムテストとCIワークフローを追加します。

Modelarts アダプターを追加して、OpenI プラットフォームでのトレーニングを可能にします。 OpenI でトレーニングするには:

    i)   Create a new training task on the openi cloud platform.
    ii)  Link the dataset (e.g., ic15_mindocr) on the webpage.
    iii) Add run parameter `config` and write the yaml file path on the website UI interface, e.g., '/home/work/user-job-dir/V0001/configs/rec/test.yaml'
    iv)  Add run parameter `enable_modelarts` and set True on the website UI interface.
    v)   Fill in other blanks and launch.

貢献方法

MindOCR をより良くするための問題や PR など、あらゆる種類の貢献に感謝します。

貢献ガイドラインについては、CONTRIBUTING.md を参照してください。インターフェイス全体に適合するモデルを提供するには、モデルテンプレートとガイドラインに従ってください:)

ライセンス

このプロジェクトは、Apache License 2.0 オープンソースライセンスに従います。

引用

このプロジェクトがあなたの研究に役立つと思われる場合は、次の引用を検討してください。

@misc{MindSpore OCR 2023,
    title={{MindSpore OCR }:MindSpore OCR Toolbox},
    author={MindSpore Team},
    howpublished = { url {https://github.com/mindspore-lab/mindocr/}},
    year={2023}
}

拡大する

追加情報

バージョン v0.3.1
タイプその他のソースコード
更新時間 2024-11-18
サイズ 50MB
から Github

mindocr

MindOCR

導入

インストール

前提条件

依存

ソースからインストール (推奨)

Dockerからインストール

PyPIからインストール

クイックスタート

1. テキストの検出と認識のデモ

2. モデルのトレーニングと評価 - クイックガイドライン

3. オフライン推論のモデル化

チュートリアル

機種一覧

データセットリスト

よくある質問

注意事項

新しいこと

貢献方法

ライセンス

引用

waymo open dataset

SmartTube

Sunamu

MySchedule.py

viptools for eslam

VITAident

chat.petals.dev

GPT Prompt Templates

GPTyped

waymo open dataset

SmartTube

Sunamu

waymo open dataset

wp functions

termwind

mindocr

MindOCR

導入

インストール

前提条件

依存

ソースからインストール (推奨)

Dockerからインストール

PyPIからインストール

クイックスタート

1. テキストの検出と認識のデモ

2. モデルのトレーニングと評価 - クイック ガイドライン

3. オフライン推論のモデル化

チュートリアル

機種一覧

データセットリスト

よくある質問

注意事項

新しいこと

貢献方法

ライセンス

引用

2. モデルのトレーニングと評価 - クイックガイドライン