Загрузка CTCWordBeamSearch - Загрузка исходного кода CTCWordBeamSearch

CTCWordBeamSearch

AI Исходный код

1.0.0

Скачать

Алгоритм декодирования поиска луча слов CTC

Обновление 2024: поддержка Python версий 3.11 и 3.12.
Обновление 2021: пакет Python является способом установки по умолчанию.
Обновление 2020: устанавливаемый пакет Python

Декодер коннекционистской временной классификации (CTC) со словарем и языковой моделью (LM).

Установка

Перейти на корневой уровень репозитория
Выполните pip install .
Перейдите в tests/ и выполните pytest чтобы проверить, сработала ли установка.

Использование

В следующем игрушечном примере показано, как использовать поиск по лучу слов. Гипотетическая модель (например, модель распознавания текста) способна распознавать 3 разных символа: «a», «b» и « » (пробелы). Слова в этом игрушечном примере могут содержать символы «a» и «b» (но не «», который является разделителем слов). Языковая модель обучается на текстовом корпусе, который содержит только два слова: «а» и «ба».

В этом фрагменте кода создается экземпляр поиска по лучу слов и декодируется массив numpy в форме TxBx(C+1):

 import numpy as np
from word_beam_search import WordBeamSearch

corpus = 'a ba'  # two words "a" and "ba", separated by whitespace
chars = 'ab '  # the characters that can be recognized (in this order)
word_chars = 'ab'  # characters that form words

# RNN output
# 3 time-steps and 4 characters per time time ("a", "b", " ", CTC-blank)
mat = np . array ([[[ 0.9 , 0.1 , 0.0 , 0.0 ]], 
                [[ 0.0 , 0.0 , 0.0 , 1.0 ]],
                [[ 0.6 , 0.4 , 0.0 , 0.0 ]]]) 

# initialize word beam search (only do this once in your code)
wbs = WordBeamSearch ( 25 , 'Words' , 0.0 , corpus . encode ( 'utf8' ), chars . encode ( 'utf8' ), word_chars . encode ( 'utf8' ))

# compute label string
label_str = wbs . compute ( mat )

Декодер возвращает список с декодированной строкой метки для каждого элемента пакета. Чтобы наконец получить строки символов, сопоставьте каждую метку с соответствующим символом:

 char_str = []  # decoded texts for batch
for curr_label_str in label_str :
    s = '' . join ([ chars [ label ] for label in curr_label_str ])
    char_str . append ( s )

Примеры:

И этот игрушечный пример, и реальный пример распознавания текста можно найти в tests/test_word_beam_search.py
Репозиторий SimpleHTR реализует систему распознавания рукописного текста и дополнительно использует поиск по лучу слов.

Документирование параметров

Параметры конструктора класса WordBeamSearch :

Ширина луча (beam_width): количество лучей, сохраняемых за временной шаг.
Режим оценки (lm_type): передать одну из четырех строк (без учета регистра). Указано время выполнения относительно размера словаря W.
- «Слова»: использовать только словарь, без оценки: O(1)
- «NGrams»: используйте словарь и оценивайте лучи с помощью LM: O(log(W))
- «NGramsForecast»: спрогнозируйте (возможно) следующие слова и примените LM к этим словам: O(W*log(W))
- «NGramsForecastAndSample»: ограничить количество (возможных) следующих слов максимум 20 словами: O(W)
Сглаживание (lm_smoothing): LM использует сглаживание add-k, чтобы разрешить пары слов, которые неизвестны из обучающего текста, т.е. для которых вероятность биграммы равна нулю. Установите значения от 0 до 1, например 0,01. Чтобы отключить сглаживание, установите значение 0.
Текст (корпус): предоставляется в виде строки в кодировке UTF8. Операция создает свой словарь и (необязательно) из него LM
Символы (chars): задаются в виде строки в кодировке UTF8. Если количество символов равно C, то выходные данные RNN должны иметь размер TxBx(C+1), причем последняя запись представляет собой пустую метку CTC. Порядок символов должен соответствовать порядку на выходе RNN, например, если RNN выводит вероятности для «a», «b», «» и CTC-blank в этом порядке, то необходимо передать строку «ab».
Символы слова (word_chars): задаются в виде строки в кодировке UTF8. Определите, как алгоритм извлекает слова из текста. Если символами слова являются «ab» и передан текст «aa ab bbb a», то слова «aa», «ab» и «bbb» будут извлечены и использованы для словаря и LM. Чтобы иметь возможность распознавать несколько слов (например, текстовую строку), символы слова должны быть подмножеством символов, распознаваемых RNN (т. е. должен быть хотя бы один символ, разделяющий слова, например, пробел): 0<len(wordChars)<len(chars) . Если необходимо обнаружить только отдельные слова, разделительный символ не нужен, поэтому два параметра также могут быть равны: 0<len(wordChars)<=len(chars)

Входные данные для метода WordBeamSearch.compute :

Входная матрица (мат)
- пустой массив
- форма TxBx(C+1)
- T — количество временных шагов, B — количество элементов пакета и C — количество символов.
- softmax-функция уже применена
- CTC-пробел должен быть последней записью по размерности символов в матрице.

Алгоритм

Поиск луча слов — это алгоритм декодирования CTC. Он используется для задач распознавания последовательностей, таких как распознавание рукописного текста или автоматическое распознавание речи.

контекст

Четыре основных свойства поиска по лучу слов:

Слова, ограниченные словарем
Допускает произвольное количество символов, не являющихся словами, между словами (цифры, знаки препинания).
Дополнительная языковая модель на уровне слов (LM)
Быстрее, чем передача токена

В следующем примере показан типичный вариант использования поиска по лучу слов, а также результаты, полученные пятью различными декодерами. Лучшее декодирование пути и поиск ванильного луча дают неверные слова, поскольку эти декодеры используют только зашумленный выходной сигнал оптической модели. Расширение поиска ванильного луча с помощью LM на уровне символов улучшает результат, допуская только вероятные последовательности символов. При передаче токенов используется словарь и LM на уровне слов, поэтому все слова обрабатываются правильно. Однако он не может распознавать произвольные строки символов, такие как числа. Поиск по лучу слов способен распознавать слова с помощью словаря, а также правильно идентифицировать символы, не являющиеся словами.

сравнение

Дополнительная информация:

Краткий обзор представлен на постере.
Более подробную информацию можно найти в документе ICFHR 2018.

Дополнительно

Прототип Python: extras/prototype/
Пользовательская операция TensorFlow: extras/tf/

Цитирование

Пожалуйста, цитируйте следующую статью, если вы используете поиск по лучу слов в своей исследовательской работе.

 @inproceedings{scheidl2018wordbeamsearch,
	title = {Word Beam Search: A Connectionist Temporal Classification Decoding Algorithm},
	author = {Scheidl, H. and Fiel, S. and Sablatnig, R.},
	booktitle = {16th International Conference on Frontiers in Handwriting Recognition},
	pages = {253--258},
	year = {2018},
	organization = {IEEE}
}

Ссылки

Поиск по лучу слов: алгоритм декодирования CTC
Декодирование поиска луча в нейронных сетях, обученных CTC
Шейдль — распознавание рукописного текста в исторических документах
Шайдль - Поиск по лучу слов: алгоритм декодирования коннекционистской временной классификации

Расширять

Дополнительная информация