CTCWordBeamSearch下載 - CTCWordBeamSearch原始碼下載

CTCWordBeamSearch

Ai源碼

1.0.0

下載

CTC Word Beam 搜尋解碼演算法

2024 年更新：支援 Python 版本 3.11 和 3.12
2021 更新：Python 套件是預設安裝方式
2020 更新：可安裝的 Python 套件

具有字典和語言模型 (LM) 的聯結時間分類 (CTC) 解碼器。

安裝

轉到存儲庫的根級別
執行pip install .
前往tests/並執行pytest檢查安裝是否有效

用法

以下玩具範例展示如何使用詞束搜尋。假設模型（例如文字辨識模型）能夠辨識 3 個不同的字元：「a」、「b」和「」（空格）。此玩具範例中的單字可以包含字元“a”和“b”（但不能包含“”，它是單字分隔符號）。語言模型是根據僅包含兩個單字的文字語料庫進行訓練的：「a」和「ba」。

在此程式碼片段中，建立了詞束搜尋的實例，並解碼了 TxBx(C+1) 形狀的 numpy 陣列：

 import numpy as np
from word_beam_search import WordBeamSearch

corpus = 'a ba'  # two words "a" and "ba", separated by whitespace
chars = 'ab '  # the characters that can be recognized (in this order)
word_chars = 'ab'  # characters that form words

# RNN output
# 3 time-steps and 4 characters per time time ("a", "b", " ", CTC-blank)
mat = np . array ([[[ 0.9 , 0.1 , 0.0 , 0.0 ]], 
                [[ 0.0 , 0.0 , 0.0 , 1.0 ]],
                [[ 0.6 , 0.4 , 0.0 , 0.0 ]]]) 

# initialize word beam search (only do this once in your code)
wbs = WordBeamSearch ( 25 , 'Words' , 0.0 , corpus . encode ( 'utf8' ), chars . encode ( 'utf8' ), word_chars . encode ( 'utf8' ))

# compute label string
label_str = wbs . compute ( mat )

解碼器傳回一個列表，其中包含每個批次元素的已解碼標籤字串。要最終獲取字串，請將每個標籤映射到其對應的字元：

 char_str = []  # decoded texts for batch
for curr_label_str in label_str :
    s = '' . join ([ chars [ label ] for label in curr_label_str ])
    char_str . append ( s )

範例：

這個玩具範例和真實的文字辨識範例都可以在tests/test_word_beam_search.py中找到
SimpleHTR 儲存庫實現了手寫文字辨識系統，並可選擇使用詞束搜尋

參數記錄

WordBeamSearch類別的建構子的參數：

波束寬度 (beam_width)：每個時間步驟保留的波束數量
評分模式（lm_type）：傳遞四個字串之一（不區分大小寫）。給出了相對於字典大小 W 的運行時間。
- 「Words」：只使用字典，不評分：O(1)
- 「NGrams」：使用字典和分數束與 LM：O(log(W))
- 「NGramsForecast」：預測（可能的）下一個單字並將 LM 應用於這些單字：O(W*log(W))
- 「NGramsForecastAndSample」：將（可能的）下一個單字的數量限制為最多 20 個單字：O(W)
平滑（lm_smoothing）：LM 使用 add-k 平滑來允許從訓練文本中未知的單字對，即二元機率為零的單字對。設定為 0 到 1 之間的值，例如 0.01。若要停用平滑，請設定為 0
文本（語料庫）：以 UTF8 編碼字串形式給出。此操作會建立其字典和（可選）從中建立的 LM
字元（chars）：以 UTF8 編碼字串形式給出。如果字元數為 C，則 RNN 輸出的大小必須為 TxBx(C+1)，最後一個條目代表 CTC 空白標籤。字元的順序必須與 RNN 輸出中的順序相對應，例如，如果 RNN 按此順序輸出“a”、“b”、“”和 CTC-blank 的機率，則必須傳遞字串“ab”
單字字元 (word_chars)：以 UTF8 編碼字串形式給出。定義演算法如何從文字中提取單字。如果單字字元是“ab”，並且傳遞文字“aa ab bbb a”，則單字“aa”、“ab”和“bbb”將被擷取並用於字典和LM。為了能夠識別多個單字（例如文字行），單字字符必須是 RNN 識別的字符的子集（即必須至少有一個單字分隔字符，如空格字符）： 0<len(wordChars)<len(chars) 。如果只需要偵測單字，則不需要分隔符，因此兩個參數也可以相等： 0<len(wordChars)<=len(chars)

WordBeamSearch.compute方法的輸入：

輸入矩陣（mat）
- numpy 陣列
- 形狀 TxBx(C+1)
- T 是時間步數，B 是批次元素數，C 是字元數
- softmax 函數已套用
- CTC-blank 必須是矩陣中字元維度的最後一個條目

演算法

詞束搜尋是一種CTC解碼演算法。它用於序列識別任務，例如手寫文字識別或自動語音識別。

詞束搜尋的四個主要屬性是：

受字典限制的單字
單字之間允許任意數量的非單字字元（數字、標點符號）
可選的字級語言模型 (LM)
比令牌傳遞更快

以下範例顯示了詞束搜尋的典型用例以及五個不同解碼器給出的結果。最佳路徑解碼和普通波束搜尋會出現錯誤，因為這些解碼器僅使用光學模型的雜訊輸出。透過字元級 LM 擴展普通波束搜索，僅允許可能的字元序列，從而改善結果。令牌傳遞使用字典和單字級 LM，因此可以正確取得所有單字。但是，它無法識別數字等任意字串。詞束搜尋能夠利用字典來辨識單字，但也能夠正確辨識非單字字元。

更多資訊：

海報中給出了簡短的概述
更多詳細資訊請參閱 ICFHR 2018 論文

附加功能

Python原型： extras/prototype/
TensorFlow自訂操作： extras/tf/

引文

如果您在研究工作中使用詞束搜索，請引用以下論文。

 @inproceedings{scheidl2018wordbeamsearch,
	title = {Word Beam Search: A Connectionist Temporal Classification Decoding Algorithm},
	author = {Scheidl, H. and Fiel, S. and Sablatnig, R.},
	booktitle = {16th International Conference on Frontiers in Handwriting Recognition},
	pages = {253--258},
	year = {2018},
	organization = {IEEE}
}