CTCWordBeamSearch下载 - CTCWordBeamSearch源码下载

CTCWordBeamSearch

Ai源码

1.0.0

下载

CTC Word Beam 搜索解码算法

2024 年更新：支持 Python 版本 3.11 和 3.12
2021 更新：Python 包是默认安装方式
2020 更新：可安装的 Python 包

具有字典和语言模型 (LM) 的联结时间分类 (CTC) 解码器。

安装

转到存储库的根级别
执行pip install .
转到tests/并执行pytest检查安装是否有效

用法

以下玩具示例展示了如何使用词束搜索。假设模型（例如文本识别模型）能够识别 3 个不同的字符：“a”、“b”和“ ”（空格）。该玩具示例中的单词可以包含字符“a”和“b”（但不能包含“”，它是单词分隔符）。语言模型是根据仅包含两个单词的文本语料库进行训练的：“a”和“ba”。

在此代码片段中，创建了词束搜索的实例，并解码了 TxBx(C+1) 形状的 numpy 数组：

 import numpy as np
from word_beam_search import WordBeamSearch

corpus = 'a ba'  # two words "a" and "ba", separated by whitespace
chars = 'ab '  # the characters that can be recognized (in this order)
word_chars = 'ab'  # characters that form words

# RNN output
# 3 time-steps and 4 characters per time time ("a", "b", " ", CTC-blank)
mat = np . array ([[[ 0.9 , 0.1 , 0.0 , 0.0 ]], 
                [[ 0.0 , 0.0 , 0.0 , 1.0 ]],
                [[ 0.6 , 0.4 , 0.0 , 0.0 ]]]) 

# initialize word beam search (only do this once in your code)
wbs = WordBeamSearch ( 25 , 'Words' , 0.0 , corpus . encode ( 'utf8' ), chars . encode ( 'utf8' ), word_chars . encode ( 'utf8' ))

# compute label string
label_str = wbs . compute ( mat )

解码器返回一个列表，其中包含每个批处理元素的已解码标签字符串。要最终获取字符串，请将每个标签映射到其对应的字符：

 char_str = []  # decoded texts for batch
for curr_label_str in label_str :
    s = '' . join ([ chars [ label ] for label in curr_label_str ])
    char_str . append ( s )

示例：

这个玩具示例和真实的文本识别示例都可以在tests/test_word_beam_search.py中找到
SimpleHTR 存储库实现了手写文本识别系统，并可选择使用词束搜索

参数记录

WordBeamSearch类的构造函数的参数：

波束宽度 (beam_width)：每个时间步保留的波束数量
评分模式（lm_type）：传递四个字符串之一（不区分大小写）。给出了相对于字典大小 W 的运行时间。
- “Words”：仅使用字典，不评分：O(1)
- “NGrams”：使用字典和分数束与 LM：O(log(W))
- “NGramsForecast”：预测（可能的）下一个单词并将 LM 应用于这些单词：O(W*log(W))
- “NGramsForecastAndSample”：将（可能的）下一个单词的数量限制为最多 20 个单词：O(W)
平滑（lm_smoothing）：LM 使用 add-k 平滑来允许从训练文本中未知的单词对，即二元概率为零的单词对。设置为 0 到 1 之间的值，例如 0.01。要禁用平滑，请设置为 0
文本（语料库）：以 UTF8 编码字符串形式给出。该操作创建其字典和（可选）从中创建的 LM
字符（chars）：以 UTF8 编码字符串形式给出。如果字符数为 C，则 RNN 输出的大小必须为 TxBx(C+1)，最后一个条目代表 CTC 空白标签。字符的顺序必须与 RNN 输出中的顺序相对应，例如，如果 RNN 按此顺序输出“a”、“b”、“”和 CTC-blank 的概率，则必须传递字符串“ab”
单词字符 (word_chars)：以 UTF8 编码字符串形式给出。定义算法如何从文本中提取单词。如果单词字符是“ab”，并且传递文本“aa ab bbb a”，则单词“aa”、“ab”和“bbb”将被提取并用于字典和LM。为了能够识别多个单词（例如文本行），单词字符必须是 RNN 识别的字符的子集（即必须至少有一个单词分隔字符，如空格字符）： 0<len(wordChars)<len(chars) 。如果只需要检测单个单词，则不需要分隔符，因此两个参数也可以相等： 0<len(wordChars)<=len(chars)

WordBeamSearch.compute方法的输入：

输入矩阵（mat）
- numpy 数组
- 形状 TxBx(C+1)
- T 是时间步数，B 是批次元素数，C 是字符数
- softmax 函数已应用
- CTC-blank 必须是矩阵中字符维度的最后一个条目

算法

词束搜索是一种CTC解码算法。它用于序列识别任务，例如手写文本识别或自动语音识别。

词束搜索的四个主要属性是：

受字典限制的单词
单词之间允许任意数量的非单词字符（数字、标点符号）
可选的字级语言模型 (LM)
比令牌传递更快

以下示例显示了词束搜索的典型用例以及五个不同解码器给出的结果。最佳路径解码和普通波束搜索会出现错误，因为这些解码器仅使用光学模型的噪声输出。通过字符级 LM 扩展普通波束搜索，仅允许可能的字符序列，从而改善结果。令牌传递使用字典和单词级 LM，因此可以正确获取所有单词。但是，它无法识别数字等任意字符串。词束搜索能够利用字典来识别单词，但也能够正确识别非单词字符。

更多信息：

海报中给出了简短的概述
更多详细信息请参阅 ICFHR 2018 论文

附加功能

Python原型： extras/prototype/
TensorFlow自定义操作： extras/tf/

引文

如果您在研究工作中使用词束搜索，请引用以下论文。

 @inproceedings{scheidl2018wordbeamsearch,
	title = {Word Beam Search: A Connectionist Temporal Classification Decoding Algorithm},
	author = {Scheidl, H. and Fiel, S. and Sablatnig, R.},
	booktitle = {16th International Conference on Frontiers in Handwriting Recognition},
	pages = {253--258},
	year = {2018},
	organization = {IEEE}
}