Unduh mindocr - unduh kode sumber mindocr

mindocr

Kode sumber lainnya

v0.3.1

Unduh

PikiranOCR

Bahasa Inggris | tidak

Perkenalan

MindOCR adalah kotak alat sumber terbuka untuk pengembangan dan aplikasi OCR berdasarkan MindSpore, yang mengintegrasikan serangkaian algoritma/model deteksi dan pengenalan teks arus utama, menyediakan alat pelatihan dan inferensi yang mudah digunakan. Hal ini dapat mempercepat proses pengembangan dan penerapan model deteksi dan pengenalan teks SoTA dalam aplikasi dunia nyata, seperti DBNet/DBNet++ dan CRNN/SVTR, dan membantu memenuhi kebutuhan pemahaman gambar-teks.

Fitur Utama

Desain modular : Kami memisahkan tugas OCR menjadi beberapa modul yang dapat dikonfigurasi. Pengguna dapat menyiapkan jalur pelatihan dan evaluasi, menyesuaikan jalur pemrosesan data, dan arsitektur model dengan mudah hanya dengan memodifikasi beberapa baris kode.
Performa tinggi : MindOCR menyediakan serangkaian beban terlatih dengan konfigurasi optimal yang mencapai performa kompetitif pada tugas OCR.
Penerapan berbiaya rendah : Alat inferensi yang mudah digunakan disediakan di MindOCR untuk melakukan tugas deteksi dan pengenalan teks.

Berikut ini adalah versi mindocr yang sesuai dan versi mindpore yang didukung.

mindocr	mindpore
menguasai	menguasai
0,4	2.3.0
0,3	2.2.10
0,1	1.8

Instalasi

Detail

Prasyarat

MindOCR dibangun di atas kerangka kerja MindSpore AI dan kompatibel dengan versi kerangka kerja berikut. pedoman instalasi untuk Pelatihan, silakan merujuk ke tautan instalasi yang ditunjukkan di bawah ini.

mindpore [instal] Silakan instal versi MindSpore yang benar, lihat versi mindocr .
ular piton >= 3.7
openmpi 4.0.3 (untuk pelatihan/evaluasi terdistribusi) [instal]

Inferensi offline MindSpore Lite, silakan lihat Instalasi Lingkungan offline Lite

Ketergantungan

pip install -r requirements.txt

Instal dari Sumber (disarankan)

git clone https://github.com/mindspore-lab/mindocr.git
cd mindocr
pip install -e .

Menggunakan -e untuk mode "dapat diedit" dapat membantu menyelesaikan potensi masalah impor modul.

Instal dari buruh pelabuhan

Detail

Informasi lingkungan buruh pelabuhan yang disediakan adalah sebagai berikut:

OS：Euler2.8
BISA：7.0
Python：3.9
MindSpore：2.2.10
MindSpore Lite：2.2.10

Silakan ikuti langkah-langkah untuk menginstal buruh pelabuhan：

Unduh buruh pelabuhan

910：

docker pull swr.cn-central-221.ovaijisuan.com/mindocr/mindocr_dev_910_ms_2_2_10_cann7_0_py39:v1

910*:

docker pull swr.cn-central-221.ovaijisuan.com/mindocr/mindocr_dev_ms_2_2_10_cann7_0_py39:v1

Buat wadah

docker_name= " temp_mindocr "
# 910
image_name= " swr.cn-central-221.ovaijisuan.com/mindocr/mindocr_dev_910_ms_2_2_10_cann7_0_py39:v1 "
# 910*
image_name= " swr.cn-central-221.ovaijisuan.com/mindocr/mindocr_dev_ms_2_2_10_cann7_0_py39:v1 "

docker run --privileged --name ${docker_name} 
    --tmpfs /tmp 
    --tmpfs /run 
    -v /sys/fs/cgroup:/sys/fs/cgroup:ro 
    --device=/dev/davinci1 
    --device=/dev/davinci2 
    --device=/dev/davinci3 
    --device=/dev/davinci4 
    --device=/dev/davinci5 
    --device=/dev/davinci6 
    --device=/dev/davinci7 
    --device=/dev/davinci_manager 
    --device=/dev/hisi_hdc 
    --device=/dev/devmm_svm 
    -v /etc/localtime:/etc/localtime 
    -v /usr/local/Ascend/driver:/usr/local/Ascend/driver 
    -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi 
    --shm-size 800g 
    --cpus 96 
    --security-opt seccomp=unconfined 
    --network=bridge -itd ${image_name} bash

Masukkan wadah

 # set docker id
container_id= " your docker id "
docker exec -it --user root $container_id bash

Tetapkan variabel lingkungan Setelah memasuki wadah, atur variabel lingkungan dengan perintah berikut：
```
 source env_setup.sh
```

Instal dari PyPI

pip install mindocr

Karena proyek ini sedang dalam pengembangan aktif, versi yang diinstal dari PyPI saat ini sudah kedaluwarsa. (akan segera diperbarui).

Mulai Cepat

1. Demo Deteksi dan Pengenalan Teks

Setelah menginstal MindOCR, kita dapat menjalankan deteksi dan pengenalan teks pada gambar sembarang dengan mudah sebagai berikut.

python tools/infer/text/predict_system.py --image_dir {path_to_img or dir_to_imgs} 
                                          --det_algorithm DB++  
                                          --rec_algorithm CRNN  
                                          --visualize_output True

Setelah dijalankan, hasilnya akan disimpan di ./inference_results secara default. Berikut ini contoh hasilnya.

Visualisasi hasil deteksi dan pengenalan teks

Kita dapat melihat bahwa semua teks pada gambar terdeteksi dan dikenali secara akurat. Untuk penggunaan lebih lanjut, silakan merujuk ke bagian inferensi dalam tutorial.

2. Pelatihan dan Evaluasi Model - Panduan Singkat

Sangat mudah untuk melatih model OCR Anda dengan skrip tools/train.py , yang mendukung pelatihan model deteksi dan pengenalan teks.

python tools/train.py --config {path/to/model_config.yaml}

Argumen --config menentukan jalur ke file yaml yang mendefinisikan model yang akan dilatih dan strategi pelatihan termasuk alur proses data, pengoptimal, penjadwal lr, dll.

MindOCR menyediakan model SoTA OCR dengan strategi pelatihannya di folder configs . Anda dapat menyesuaikannya dengan tugas/kumpulan data Anda, misalnya dengan menjalankan

 # train text detection model DBNet++ on icdar15 dataset
python tools/train.py --config configs/det/dbnet/dbpp_r50_icdar15.yaml

 # train text recognition model CRNN on icdar15 dataset
python tools/train.py --config configs/rec/crnn/crnn_icdar15.yaml

Demikian pula, mudah untuk mengevaluasi model yang dilatih dengan skrip tools/eval.py .

python tools/eval.py 
    --config {path/to/model_config.yaml} 
    --opt eval.dataset_root={path/to/your_dataset} eval.ckpt_load_path={path/to/ckpt_file}

Untuk ilustrasi dan penggunaan lebih lanjut, silakan merujuk ke bagian pelatihan model di Tutorial.

3. Model Inferensi Offline

Anda dapat melakukan inferensi MindSpore Lite di MindOCR menggunakan model MindOCR atau model pihak ketiga (PaddleOCR, MMOCR, dll.). Silakan merujuk ke Tutorial Inferensi Model Offline

Tutorial

Kumpulan data
- Persiapan Kumpulan Data
- Mekanisme Transformasi Data
Pelatihan Model
- Konfigurasi Yaml
- Deteksi Teks
- Pengenalan Teks
- Pelatihan Terdistribusi
- Lanjutan: Akumulasi Gradien, EMA, Pelatihan Resume, dll
Inferensi dengan MindSpore
- Inferensi Daring Python
Inferensi dengan MindSpore Lite
- Tutorial Inferensi Offline Model
Panduan Pengembang
- Sesuaikan Kumpulan Data
- Sesuaikan Transformasi Data
- Sesuaikan Model Baru
- Sesuaikan Metode Pasca Pemrosesan

Daftar Model

Deteksi Teks

Pengenalan Teks

Analisis Tata Letak

YOLOv8 (Ultralitik Inc.)

Ekstraksi Informasi Penting

Tata LetakXLM (arXiv'2021)
Tata LetakLMv3 (arXiv'2022)

Pengenalan Tabel

TableMaster (arXiv'2021)

Model OCR besar

Bervariasi (arXiv'2023)

Untuk detail performa model yang dilatih, silakan merujuk ke https://github.com/mindspore-lab/mindocr/blob/main/configs.

Untuk rincian dukungan model inferensi MindSpore Lite, silakan lihat Daftar Dukungan Model MindOCR dan Daftar Dukungan Model Pihak Ketiga (PaddleOCR dll.).

Daftar Kumpulan Data

MindOCR menyediakan alat konversi kumpulan data ke kumpulan data OCR dengan format berbeda dan mendukung kumpulan data yang disesuaikan oleh pengguna. Kami telah memvalidasi kumpulan data OCR publik berikut dalam pelatihan/evaluasi model.

Kumpulan Data OCR Umum

Gambar Lahir-Digital [unduh]
CASIA-10K [unduh]
CCPD [unduh]
Tolok Ukur Pengenalan Teks Mandarin [makalah] [unduh]
COCO-Teks [unduh]
CTW [unduh]
ICDAR2015 [makalah] [unduh]
Seni ICDAR2019 [unduh]
LSVT [unduh]
MLT2017 [makalah] [unduh]
MSRA-TD500 [kertas] [unduh]
MTWI-2018 [unduh]
RCTW-17 [unduh]
ReCTS [unduh]
SCUT-CTW1500 [kertas] [unduh]
SROIE [unduh]
SVT [unduh]
SynText150k [kertas] [unduh]
SynthText [makalah] [unduh]
TeksOCR [unduh]
Total-Teks [kertas] [unduh]

Kumpulan Data Analisis Tata Letak

PuplayNet [makalah] [unduh]

Kumpulan Data Ekstraksi Informasi Penting

XFUND [kertas] [unduh]

Kumpulan Data Pengenalan Tabel

PubTabNet [kertas] [unduh]

Kami akan menyertakan lebih banyak kumpulan data untuk pelatihan dan evaluasi. Daftar ini akan terus diperbarui.

Pertanyaan yang Sering Diajukan

Pertanyaan yang sering diajukan tentang konfigurasi lingkungan dan mindocr, silakan merujuk ke FAQ.

Catatan

Apa yang Baru

Berita

2023/04/01

Tambahkan model terlatih baru
- LayoutLMv3 untuk ekstraksi informasi penting

2024/03/20

Tambahkan model terlatih baru
- Mainan bervariasi untuk model besar OCR, menyediakan deteksi objek berbasis Qwen-1.8B LLM dan kemampuan OCR

2023/12/25

Tambahkan model terlatih baru
- TableMaster untuk pengenalan tabel
Tambahkan lebih banyak kumpulan data benchmark dan hasilnya
- PubTabNet

2023/12/14

Tambahkan model terlatih baru
- LayoutXLM untuk ekstraksi informasi penting
- VI-LayoutXLM untuk ekstraksi informasi penting
- PP-OCRv3 DBNet untuk deteksi teks dan PP-OCRv3 SVTR untuk pengenalan, mendukung inferensi dan penyempurnaan online
Tambahkan lebih banyak kumpulan data benchmark dan hasilnya
- XDANA
Dukungan berbagai spesifikasi untuk Ascend 910: DBNet ResNet-50, DBNet++ ResNet-50, CRNN VGG7, SVTR-Tiny, FCENet, ABINet

28/11/2023

Tambahkan dukungan inferensi offline untuk PP-OCRv4
- PP-OCRv4 DBNet untuk deteksi teks dan PP-OCRv4 CRNN untuk pengenalan teks, mendukung kesimpulan offline
Perbaiki bug inferensi offline model pihak ketiga

2023/11/17

Tambahkan model terlatih baru
- YOLOv8 untuk analisis tata letak
Tambahkan lebih banyak kumpulan data benchmark dan hasilnya
- PublikasiNet

2023/07/06

Tambahkan model terlatih baru
- RobustScanner untuk pengenalan teks

2023/07/05

Tambahkan model terlatih baru
- VISIONLAN untuk pengenalan teks

2023/06/29

Tambahkan model terlatih baru
- FCENet untuk deteksi teks
- MASTER untuk pengenalan teks

2023/06/07

Tambahkan model terlatih baru
- PSENet untuk deteksi teks
- TIMUR untuk deteksi teks
- SVTR untuk pengenalan teks
Tambahkan lebih banyak kumpulan data benchmark dan hasilnya
- totalteks
- mlt2017
- pengenalan_teks_cina
Tambahkan fungsi melanjutkan pelatihan, yang dapat digunakan jika terjadi gangguan tak terduga dalam pelatihan. Penggunaan: tambahkan parameter resume di bawah bidang model di konfigurasi yaml, misalnya resume: True , muat dan lanjutkan pelatihan dari {ckpt_save_dir}/train_resume.ckpt atau resume: /path/to/train_resume.ckpt , muat dan lanjutkan pelatihan dari jalan yang diberikan.
Tingkatkan pascapemrosesan untuk deteksi: skala ulang poligon teks yang terdeteksi ke ruang gambar asli secara default, yang dapat diaktifkan dengan menambahkan "shape_list" ke daftar eval.dataset.output_columns .
Refaktorkan inferensi online untuk mendukung lebih banyak model, lihat README.md untuk detailnya.

2023/05/15

Tambahkan model terlatih baru
- DBNet++ untuk deteksi teks
- CRNN-Seq2Seq untuk pengenalan teks
- DBNet yang telah dilatih sebelumnya di SynthText sekarang tersedia: url pos pemeriksaan
Tambahkan lebih banyak kumpulan data benchmark dan hasilnya
- SynthText, MSRA-TD500, CTW1500
- Hasil benchmark lainnya untuk DBNet dilaporkan di sini.
Tambahkan manajer pos pemeriksaan untuk menyimpan pos pemeriksaan teratas dan meningkatkan log.
Kode inferensi Python difaktorkan ulang.
Perbaikan bug: gunakan Meter untuk menghitung rata-rata kerugian pada kumpulan data besar, nonaktifkan pred_cast_fp32 untuk ctcloss dalam pelatihan AMP, perbaiki kesalahan saat ada poligon yang tidak valid.

2023/05/04

Mendukung pemuatan pos pemeriksaan terlatih yang ditentukan sendiri melalui pengaturan model-pretrained dengan url pos pemeriksaan atau jalur lokal di yaml.
Mendukung kemungkinan pengaturan untuk menjalankan augmentasi termasuk rotasi dan flip.
Tambahkan Exponential Moving Average (EMA) untuk pelatihan model, yang dapat diaktifkan dengan mengatur train-ema (default: False) dan train-ema_decay di konfigurasi yaml.
Parameter arg diubah： num_columns_to_net -> net_input_column_index : mengubah nomor kolom yang masuk ke jaringan menjadi indeks kolom.
Parameter arg diubah： num_columns_of_labels -> label_column_index : ubah nomor kolom sesuai label menjadi indeks kolom.

2023/04/21

Tambahkan pengelompokan parameter untuk mendukung regularisasi fleksibel dalam pelatihan. Penggunaan: tambahkan argumen grouping_strategy di konfigurasi yaml untuk memilih strategi pengelompokan yang telah ditentukan sebelumnya, atau gunakan argumen no_weight_decay_params untuk memilih lapisan yang akan dikecualikan dari penurunan bobot (misalnya, bias, norma). Contoh dapat dirujuk di configs/rec/crnn/crnn_icdar15.yaml
Tambahkan akumulasi gradien untuk mendukung pelatihan ukuran batch besar. Penggunaan: tambahkan gradient_accumulation_steps di konfigurasi yaml, ukuran batch global = ukuran_batch * perangkat * gradien_akumulasi_langkah. Contoh dapat dirujuk di configs/rec/crnn/crnn_icdar15.yaml
Tambahkan klip gradien untuk mendukung stabilisasi pelatihan. Aktifkan dengan menyetel grad_clip sebagai True di konfigurasi yaml.

23/03/2023

Tambahkan dukungan penskala kerugian dinamis, kompatibel dengan pembaruan drop overflow. Untuk mengaktifkan penskala kerugian dinamis, harap tetapkan type loss_scale sebagai dynamic . Contoh YAML dapat dilihat di configs/rec/crnn/crnn_icdar15.yaml

2023/03/20

Nama argumen diubah: output_keys -> output_columns , num_keys_to_net -> num_columns_to_net
Saluran data diperbarui

2023/03/13

Tambahkan pengujian sistem dan alur kerja CI.

Tambahkan adaptor modelarts untuk memungkinkan pelatihan pada platform OpenI. Untuk berlatih di OpenI:

    i)   Create a new training task on the openi cloud platform.
    ii)  Link the dataset (e.g., ic15_mindocr) on the webpage.
    iii) Add run parameter `config` and write the yaml file path on the website UI interface, e.g., '/home/work/user-job-dir/V0001/configs/rec/test.yaml'
    iv)  Add run parameter `enable_modelarts` and set True on the website UI interface.
    v)   Fill in other blanks and launch.

Bagaimana Berkontribusi

Kami mengapresiasi segala bentuk kontribusi termasuk isu dan PR untuk menjadikan MindOCR lebih baik.

Silakan merujuk ke CONTRIBUTING.md untuk pedoman berkontribusi. Silakan ikuti Templat Model dan Pedoman untuk menyumbangkan model yang sesuai dengan keseluruhan antarmuka :)

Lisensi

Proyek ini mengikuti lisensi sumber terbuka Apache License 2.0.

Kutipan

Jika Anda merasa proyek ini berguna dalam penelitian Anda, mohon pertimbangkan untuk mengutip:

@misc{MindSpore OCR 2023,
    title={{MindSpore OCR }:MindSpore OCR Toolbox},
    author={MindSpore Team},
    howpublished = { url {https://github.com/mindspore-lab/mindocr/}},
    year={2023}
}

Memperluas

Informasi Tambahan

Versi v0.3.1
Tipe Kode sumber lainnya
Waktu Pembaruan 2024-11-18
ukuran 50MB
Berasal dari Github

Aplikasi Terkait

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
viptools for eslam

2024-12-15
MySchedule.py

2024-12-15
VITAident

2024-12-15

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
waymo open dataset

Kode sumber lainnya

December 2023 Update
SmartTube

Kode sumber lainnya

24.71 Stable
Sunamu

Kode sumber lainnya

Release 2.2.0
waymo open dataset

Kode sumber lainnya

December 2023 Update
wp functions

Kategori lainnya

1.0.0
termwind

Kategori lainnya

v2.3.0

Informasi Terkait Semua