Загрузка mindocr - Загрузка исходного кода mindocr

mindocr

Другой исходный код

v0.3.1

Скачать

MindOCR

английский | 中文

Введение

MindOCR — это набор инструментов с открытым исходным кодом для разработки и применения оптического распознавания символов на основе MindSpore, который объединяет ряд основных алгоритмов/моделей обнаружения и распознавания текста, предоставляет простые в использовании инструменты обучения и вывода. Он может ускорить процесс разработки и внедрения моделей обнаружения и распознавания текста SoTA в реальных приложениях, таких как DBNet/DBNet++ и CRNN/SVTR, а также помочь удовлетворить потребность в понимании текста и изображения.

Основные особенности

Модульная конструкция . Мы разделили задачу распознавания текста на несколько настраиваемых модулей. Пользователи могут легко настроить конвейеры обучения и оценки, настроить конвейер обработки данных и моделировать архитектуру, изменив всего несколько строк кода.
Высокая производительность : MindOCR предоставляет серию предварительно обученных весов, обученных с использованием оптимизированных конфигураций, которые достигают конкурентоспособной производительности при выполнении задач OCR.
Низкая стоимость применения : в MindOCR предусмотрены простые в использовании инструменты вывода для выполнения задач по обнаружению и распознаванию текста.

Ниже приведены соответствующие версии mindocr и поддерживаемые версии Mindspore.

разум	разумспора
владелец	владелец
0,4	2.3.0
0,3	2.2.10
0,1	1,8

Установка

Подробности

Предварительные условия

MindOCR построен на базе искусственного интеллекта MindSpore и совместим со следующими версиями платформы. Руководство по установке для обучения см. по ссылкам для установки, показанным ниже.

Mindspore [установить] Пожалуйста, установите правильную версию MindSpore. См. версии mindocr .
питон >= 3.7
openmpi 4.0.3 (для распределенного обучения/оценки) [установить]

Офлайн-вывод MindSpore Lite см. в разделе «Установка автономной среды Lite».

Зависимость

pip install -r requirements.txt

Установить из исходного кода (рекомендуется)

git clone https://github.com/mindspore-lab/mindocr.git
cd mindocr
pip install -e .

Использование -e для «редактируемого» режима может помочь решить потенциальные проблемы с импортом модулей.

Установить из докера

Подробности

Предоставляемая информация об среде докеров следующая:

ОС: Эйлер2.8
КАНН: 7,0
Питон: 3.9
MindSpore: 2.2.10
MindSpore Lite: 2.2.10

Пожалуйста, следуйте инструкциям по установке докера:

Скачать докер

910:

docker pull swr.cn-central-221.ovaijisuan.com/mindocr/mindocr_dev_910_ms_2_2_10_cann7_0_py39:v1

910*:

docker pull swr.cn-central-221.ovaijisuan.com/mindocr/mindocr_dev_ms_2_2_10_cann7_0_py39:v1

Создать контейнер

docker_name= " temp_mindocr "
# 910
image_name= " swr.cn-central-221.ovaijisuan.com/mindocr/mindocr_dev_910_ms_2_2_10_cann7_0_py39:v1 "
# 910*
image_name= " swr.cn-central-221.ovaijisuan.com/mindocr/mindocr_dev_ms_2_2_10_cann7_0_py39:v1 "

docker run --privileged --name ${docker_name} 
    --tmpfs /tmp 
    --tmpfs /run 
    -v /sys/fs/cgroup:/sys/fs/cgroup:ro 
    --device=/dev/davinci1 
    --device=/dev/davinci2 
    --device=/dev/davinci3 
    --device=/dev/davinci4 
    --device=/dev/davinci5 
    --device=/dev/davinci6 
    --device=/dev/davinci7 
    --device=/dev/davinci_manager 
    --device=/dev/hisi_hdc 
    --device=/dev/devmm_svm 
    -v /etc/localtime:/etc/localtime 
    -v /usr/local/Ascend/driver:/usr/local/Ascend/driver 
    -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi 
    --shm-size 800g 
    --cpus 96 
    --security-opt seccomp=unconfined 
    --network=bridge -itd ${image_name} bash

Введите контейнер

 # set docker id
container_id= " your docker id "
docker exec -it --user root $container_id bash

Установка переменных среды. После входа в контейнер установите переменные среды с помощью следующей команды:
```
 source env_setup.sh
```

Установить из PyPI

pip install mindocr

Поскольку этот проект находится в активной разработке, версия, установленная из PyPI, в настоящее время устарела. (скоро обновится).

Быстрый старт

1. Демонстрация обнаружения и распознавания текста

После установки MindOCR мы можем легко запустить обнаружение и распознавание текста на произвольном изображении следующим образом.

python tools/infer/text/predict_system.py --image_dir {path_to_img or dir_to_imgs} 
                                          --det_algorithm DB++  
                                          --rec_algorithm CRNN  
                                          --visualize_output True

После запуска результаты по умолчанию сохраняются в ./inference_results . Вот пример результата.

Визуализация результата обнаружения и распознавания текста

Мы видим, что все тексты на изображении распознаются и распознаются точно. Дополнительные сведения об использовании см. в разделе «Выводы» в руководствах.

2. Обучение и оценка модели – краткое руководство

Модель оптического распознавания символов легко обучить с помощью сценария tools/train.py , который поддерживает обучение модели обнаружения текста и распознавания.

python tools/train.py --config {path/to/model_config.yaml}

Аргумент --config указывает путь к файлу yaml, который определяет обучаемую модель и стратегию обучения, включая конвейер обработки данных, оптимизатор, планировщик lr и т. д.

MindOCR предоставляет модели SoTA OCR со стратегиями обучения в папке configs . Вы можете адаптировать его к своей задаче/набору данных, например, запустив

 # train text detection model DBNet++ on icdar15 dataset
python tools/train.py --config configs/det/dbnet/dbpp_r50_icdar15.yaml

 # train text recognition model CRNN on icdar15 dataset
python tools/train.py --config configs/rec/crnn/crnn_icdar15.yaml

Аналогично, обученную модель легко оценить с помощью скрипта tools/eval.py .

python tools/eval.py 
    --config {path/to/model_config.yaml} 
    --opt eval.dataset_root={path/to/your_dataset} eval.ckpt_load_path={path/to/ckpt_file}

Дополнительные иллюстрации и использование см. в разделе «Обучение модели» в Учебных пособиях.

3. Модель автономного вывода

Вы можете сделать вывод MindSpore Lite в MindOCR, используя модели MindOCR или сторонние модели (PaddleOCR, MMOCR и т. д.). Пожалуйста, обратитесь к руководству по автономному выводу модели.

Учебники

Наборы данных
- Подготовка набора данных
- Механизм преобразования данных
Модельное обучение
- Конфигурация Yaml
- Обнаружение текста
- Распознавание текста
- Распределенное обучение
- Продвинутый уровень: накопление градиента, EMA, возобновление обучения и т. д.
Вывод с помощью MindSpore
- Онлайн-вывод Python
Вывод с помощью MindSpore Lite
- Учебное пособие по автономному выводу модели
Руководства для разработчиков
- Настроить набор данных
- Настройте преобразование данных
- Настройте новую модель
- Настройте метод постобработки

Список моделей

Обнаружение текста

Распознавание текста

Анализ макета

YOLOv8 (Ultralytics Inc.)

Извлечение ключевой информации

МакетXLM (arXiv'2021)
МакетLMv3 (arXiv'2022)

Распознавание таблиц

TableMaster (arXiv'2021)

Большая модель оптического распознавания символов

Вари (arXiv'2023)

Подробную информацию о производительности обученных моделей можно найти на странице https://github.com/mindspore-lab/mindocr/blob/main/configs.

Подробную информацию о поддержке моделей вывода MindSpore Lite см. в списках поддержки моделей MindOCR и списках поддержки сторонних моделей (PaddleOCR и т. д.).

Список наборов данных

MindOCR предоставляет инструмент преобразования наборов данных в наборы данных OCR различных форматов и поддерживает настраиваемые пользователями наборы данных. Мы проверили следующие общедоступные наборы данных OCR при обучении/оценке модели.

Общие наборы данных OCR

Родившиеся цифровые изображения [скачать]
КАСИЯ-10К [скачать]
CCPD [скачать]
Тест распознавания текста на китайском языке [бумага] [скачать]
COCO-текст [скачать]
CTW [скачать]
ICDAR2015 [документ] [скачать]
ICDAR2019 Art [скачать]
ЛСВТ [скачать]
MLT2017 [статья] [скачать]
MSRA-TD500 [бумага] [скачать]
МТВИ-2018 [скачать]
РКТВ-17 [скачать]
РеКТС [скачать]
SCUT-CTW1500 [бумага] [скачать]
СРОИЭ [скачать]
СВТ [скачать]
SynText150k [бумага] [скачать]
SynthText [бумага] [скачать]
TextOCR [скачать]
Total-Text [бумага] [скачать]

Наборы данных анализа компоновки

PulayNet [статья] [скачать]

Наборы данных для извлечения ключевой информации

XFUND [документ] [скачать]

Наборы данных для распознавания таблиц

PubTabNet [бумага] [скачать]

Мы добавим больше наборов данных для обучения и оценки. Этот список будет постоянно обновляться.

Часто задаваемые вопросы

Часто задаваемые вопросы о настройке среды и Mindocr см. в разделе Часто задаваемые вопросы.

Примечания

Что нового

Новости

01.04.2023

Добавляйте новые обученные модели
- LayoutLMv3 для извлечения ключевой информации

20.03.2024

Добавляйте новые обученные модели
- Вариация для большой модели OCR, обеспечивающая обнаружение объектов на основе LLM Qwen-1.8B и возможности OCR.

2023/12/25

Добавляйте новые обученные модели
- TableMaster для распознавания таблиц
Добавьте больше наборов эталонных данных и их результатов.
- ПабТабНет

2023/12/14

Добавляйте новые обученные модели
- LayoutXLM для извлечения ключевой информации
- VI-LayoutXLM для извлечения ключевой информации
- PP-OCRv3 DBNet для обнаружения текста и PP-OCRv3 SVTR для распознавания, поддержка онлайн-вывода и точной настройки.
Добавьте больше наборов эталонных данных и их результатов.
- XFUND
Поддержка нескольких спецификаций для Ascend 910: DBNet ResNet-50, DBNet++ ResNet-50, CRNN VGG7, SVTR-Tiny, FCENet, ABINet.

28.11.2023

Добавить поддержку автономного вывода для PP-OCRv4.
- PP-OCRv4 DBNet для обнаружения текста и PP-OCRv4 CRNN для распознавания текста, поддержка автономного вывода
Исправить ошибки автономного вывода сторонних моделей.

2023/11/17

Добавляйте новые обученные модели
- YOLOv8 для анализа макета
Добавьте больше наборов эталонных данных и их результатов.
- ПублийНет

06.07.2023

Добавляйте новые обученные модели
- RobustScanner для распознавания текста

05.07.2023

Добавляйте новые обученные модели
- VISIONLAN для распознавания текста

2023/06/29

Добавляйте новые обученные модели
- FCENet для обнаружения текста
- МАСТЕР для распознавания текста

07.06.2023

Добавляйте новые обученные модели
- PSENet для обнаружения текста
- EAST для обнаружения текста
- СВТР для распознавания текста
Добавьте больше наборов эталонных данных и их результатов.
- общий текст
- млт2017
- chinese_text_recognition
Добавьте функцию возобновления тренировки, которую можно использовать в случае неожиданного прерывания тренировки. Использование: добавьте параметр resume в поле model в конфигурации yaml, например, resume: True , загрузить и возобновить обучение из {ckpt_save_dir}/train_resume.ckpt или resume: /path/to/train_resume.ckpt , загрузить и возобновить обучение из заданный путь.
Улучшите постобработку для обнаружения: по умолчанию масштабируйте обнаруженные текстовые полигоны до исходного пространства изображения, что можно включить, добавив «shape_list» в список eval.dataset.output_columns .
Рефакторинг онлайн-вывода для поддержки большего количества моделей, подробности см. в README.md.

15.05.2023

Добавляйте новые обученные модели
- DBNet++ для обнаружения текста
- CRNN-Seq2Seq для распознавания текста
- DBNet, предварительно обученная на SynthText, теперь доступна: URL-адрес контрольной точки
Добавьте больше наборов эталонных данных и их результатов.
- Синтетекст, MSRA-TD500, CTW1500
- Дополнительные результаты тестов для DBNet представлены здесь.
Добавьте менеджер контрольных точек для сохранения топ-k контрольных точек и улучшите журнал.
Код вывода Python подвергся рефакторингу.
Исправление ошибки: используйте Meter для усреднения потерь для больших наборов данных, отключите pred_cast_fp32 для ctcloss в обучении AMP, исправьте ошибку при наличии недопустимых полигонов.

04.05.2023

Поддержка загрузки самоопределенных предварительно обученных контрольных точек путем настройки model-pretrained с помощью URL-адреса контрольной точки или локального пути в yaml.
Поддержка настройки вероятности выполнения увеличения, включая вращение и переворот.
Добавьте экспоненциальное скользящее среднее (EMA) для обучения модели, которое можно включить, установив train-ema (по умолчанию: False) и train-ema_decay в конфигурации yaml.
Изменен параметр Arg: num_columns_to_net -> net_input_column_index : измените номер столбца, подаваемого в сеть, на индекс столбца.
Изменен параметр Arg: num_columns_of_labels -> label_column_index : изменение номера столбца соответствует метке индекса столбца.

2023/04/21

Добавьте группировку параметров для поддержки гибкой регуляризации при обучении. Использование: добавьте аргумент grouping_strategy в конфигурацию yaml, чтобы выбрать предопределенную стратегию группировки, или используйте аргумент no_weight_decay_params , чтобы выбрать слои, которые необходимо исключить из снижения веса (например, смещение, норма). Пример можно найти в configs/rec/crnn/crnn_icdar15.yaml
Добавьте накопление градиента для поддержки обучения больших пакетов. Использование: добавьте gradient_accumulation_steps в конфигурацию yaml, глобальный размер пакета = размер_пакета * устройства * градиент_аккумуляция_шаги. Пример можно найти в configs/rec/crnn/crnn_icdar15.yaml
Добавьте градиентный клип для поддержки стабилизации тренировки. Включите его, установив для grad_clip значение True в конфигурации yaml.

2023/03/23

Добавлена поддержка масштабирования динамических потерь, совместимая с обновлением переполнения. Чтобы включить динамический масштабатор потерь, установите type loss_scale как dynamic . Пример YAML можно посмотреть в configs/rec/crnn/crnn_icdar15.yaml

20.03.2023

Имена аргументов изменены: output_keys -> output_columns , num_keys_to_net -> num_columns_to_net
Конвейер данных обновлен.

13.03.2023

Добавьте системное тестирование и рабочий процесс CI.

Добавьте адаптер modelarts для обучения на платформе OpenI. Чтобы тренироваться на OpenI:

    i)   Create a new training task on the openi cloud platform.
    ii)  Link the dataset (e.g., ic15_mindocr) on the webpage.
    iii) Add run parameter `config` and write the yaml file path on the website UI interface, e.g., '/home/work/user-job-dir/V0001/configs/rec/test.yaml'
    iv)  Add run parameter `enable_modelarts` and set True on the website UI interface.
    v)   Fill in other blanks and launch.

Как внести свой вклад

Мы ценим любой вклад, включая вопросы и PR, чтобы сделать MindOCR лучше.

Пожалуйста, обратитесь к CONTRIBUTING.md за рекомендациями по участию. Пожалуйста, следуйте шаблону модели и руководству, чтобы создать модель, которая соответствует общему интерфейсу :)

Лицензия

Этот проект соответствует лицензии с открытым исходным кодом Apache License 2.0.

Цитирование

Если вы считаете этот проект полезным для своих исследований, пожалуйста, процитируйте:

@misc{MindSpore OCR 2023,
    title={{MindSpore OCR }:MindSpore OCR Toolbox},
    author={MindSpore Team},
    howpublished = { url {https://github.com/mindspore-lab/mindocr/}},
    year={2023}
}

Расширять

Дополнительная информация