Télécharger CTCWordBeamSearch - CTCWordBeamSearch Téléchargement du code source

CTCWordBeamSearch

Code Source AI

1.0.0

Télécharger

Algorithme de décodage de recherche par faisceau de mots CTC

Mise à jour 2024 : prise en charge des versions 3.11 et 3.12 de Python
Mise à jour 2021 : le package Python est le mode d'installation par défaut
Mise à jour 2020 : package Python installable

Décodeur de classification temporelle connexionniste (CTC) avec dictionnaire et modèle de langage (LM).

Installation

Accédez au niveau racine du référentiel
Exécutez pip install .
Accédez à tests/ et exécutez pytest pour vérifier si l'installation a fonctionné

Usage

L'exemple de jouet suivant montre comment utiliser la recherche par faisceau de mots. Le modèle hypothétique (par exemple un modèle de reconnaissance de texte) est capable de reconnaître 3 caractères différents : "a", "b" et " " (espace). Les mots de cet exemple de jouet peuvent contenir les caractères « a » et « b » (mais pas « » qui est le séparateur de mots). Le modèle de langage est formé à partir d'un corpus de texte qui ne contient que deux mots : « a » et « ba ».

Dans cet extrait de code, une instance de recherche par faisceau de mots est créée et un tableau numpy en forme de TxBx(C+1) est décodé :

 import numpy as np
from word_beam_search import WordBeamSearch

corpus = 'a ba'  # two words "a" and "ba", separated by whitespace
chars = 'ab '  # the characters that can be recognized (in this order)
word_chars = 'ab'  # characters that form words

# RNN output
# 3 time-steps and 4 characters per time time ("a", "b", " ", CTC-blank)
mat = np . array ([[[ 0.9 , 0.1 , 0.0 , 0.0 ]], 
                [[ 0.0 , 0.0 , 0.0 , 1.0 ]],
                [[ 0.6 , 0.4 , 0.0 , 0.0 ]]]) 

# initialize word beam search (only do this once in your code)
wbs = WordBeamSearch ( 25 , 'Words' , 0.0 , corpus . encode ( 'utf8' ), chars . encode ( 'utf8' ), word_chars . encode ( 'utf8' ))

# compute label string
label_str = wbs . compute ( mat )

Le décodeur renvoie une liste avec une chaîne d'étiquette décodée pour chaque élément du lot. Pour enfin obtenir les chaînes de caractères, mappez chaque étiquette au caractère correspondant :

 char_str = []  # decoded texts for batch
for curr_label_str in label_str :
    s = '' . join ([ chars [ label ] for label in curr_label_str ])
    char_str . append ( s )

Exemples :

Cet exemple de jouet et un véritable exemple de reconnaissance de texte peuvent être trouvés dans tests/test_word_beam_search.py
Le référentiel SimpleHTR implémente un système de reconnaissance de texte manuscrit et utilise éventuellement la recherche par faisceau de mots

Documentation des paramètres

Paramètres du constructeur de la classe WordBeamSearch :

Largeur du faisceau (beam_width) : nombre de faisceaux conservés par pas de temps
Mode de notation (lm_type) : passez l'une des quatre chaînes (non sensible à la casse). Le temps d'exécution par rapport à la taille du dictionnaire W est donné.
- "Mots" : utilisez uniquement le dictionnaire, pas de notation : O(1)
- "NGrams": utilisez le dictionnaire et notez les faisceaux avec LM : O(log(W))
- "NGramsForecast": prévoir (possible) les mots suivants et appliquer LM à ces mots : O(W*log(W))
- "NGramsForecastAndSample" : limiter le nombre de mots suivants (possibles) à 20 mots maximum : O(W)
Lissage (lm_smoothing) : LM utilise le lissage add-k pour autoriser les paires de mots qui ne sont pas connues dans le texte d'entraînement, c'est-à-dire pour lesquelles la probabilité de bigramme est nulle. Réglé sur des valeurs comprises entre 0 et 1, par exemple 0,01. Pour désactiver le lissage, définissez-le sur 0
Texte (corpus) : est donné sous forme de chaîne codée en UTF8. L'opération crée son dictionnaire et (éventuellement) LM à partir de celui-ci
Caractères (chars) : est donné sous forme de chaîne codée en UTF8. Si le nombre de caractères est C, alors la sortie RNN doit avoir la taille TxBx(C+1) avec la dernière entrée représentant l'étiquette vierge CTC. L'ordre des caractères doit correspondre à l'ordre dans la sortie RNN, par exemple si le RNN génère les probabilités pour "a", "b", " " et CTC-blank dans cet ordre, alors la chaîne "ab " doit être transmise
Caractères de mot (word_chars) : sont donnés sous forme de chaîne codée en UTF8. Définissez comment l'algorithme extrait les mots du texte. Si les caractères du mot sont « ab » et que le texte « aa ab bbb a » est transmis, alors les mots « aa », « ab » et « bbb » seront extraits et utilisés pour le dictionnaire et le LM. Pour pouvoir reconnaître plusieurs mots (par exemple une ligne de texte), les caractères des mots doivent être un sous-ensemble des caractères reconnus par le RNN (c'est-à-dire qu'il doit y avoir au moins un caractère de séparation des mots comme le caractère espace) : 0<len(wordChars)<len(chars) . Dans le cas où seuls des mots uniques doivent être détectés, il n'est pas nécessaire d'utiliser un caractère de séparation, donc les deux paramètres peuvent également être égaux : 0<len(wordChars)<=len(chars)

Entrée dans la méthode WordBeamSearch.compute :

Matrice d'entrée (mat)
- tableau numpy
- forme TxBx(C+1)
- T est le nombre de pas de temps, B le nombre d'éléments du lot et C le nombre de caractères
- fonction softmax déjà appliquée
- CTC-blank doit être la dernière entrée le long de la dimension du caractère dans la matrice

Algorithme

La recherche par faisceau de mots est un algorithme de décodage CTC. Il est utilisé pour des tâches de reconnaissance de séquences telles que la reconnaissance de texte manuscrit ou la reconnaissance vocale automatique.

contexte

Les quatre propriétés principales de la recherche par faisceau de mots sont :

Mots contraints par le dictionnaire
Autorise un nombre arbitraire de caractères autres que des mots entre les mots (chiffres, signes de ponctuation)
Modèle de langage (LM) facultatif au niveau des mots
Plus rapide que le passage de jetons

L'exemple suivant montre un cas d'utilisation typique de la recherche par faisceau de mots ainsi que les résultats donnés par cinq décodeurs différents. Le décodage du meilleur chemin et la recherche de faisceau vanille se trompent car ces décodeurs n'utilisent que la sortie bruyante du modèle optique. L'extension de la recherche par faisceau Vanilla par un LM au niveau du caractère améliore le résultat en autorisant uniquement les séquences de caractères probables. Le passage de jetons utilise un dictionnaire et un LM au niveau des mots et obtient donc tous les mots correctement. Cependant, il n’est pas capable de reconnaître les chaînes de caractères arbitraires comme les nombres. La recherche par faisceau de mots est capable de reconnaître les mots à l'aide d'un dictionnaire, mais elle est également capable d'identifier correctement les caractères autres que les mots.

comparaison

Plus d'informations :

Un bref aperçu est donné dans l'affiche
Plus de détails peuvent être trouvés dans le document ICFHR 2018

Suppléments

Prototype Python : extras/prototype/
Opération personnalisée TensorFlow : extras/tf/

Citation

Veuillez citer l'article suivant si vous utilisez la recherche par faisceau de mots dans votre travail de recherche.

 @inproceedings{scheidl2018wordbeamsearch,
	title = {Word Beam Search: A Connectionist Temporal Classification Decoding Algorithm},
	author = {Scheidl, H. and Fiel, S. and Sablatnig, R.},
	booktitle = {16th International Conference on Frontiers in Handwriting Recognition},
	pages = {253--258},
	year = {2018},
	organization = {IEEE}
}

Références

Recherche par faisceau de mots : un algorithme de décodage CTC
Décodage de recherche de faisceau dans les réseaux de neurones formés par CTC
Scheidl - Reconnaissance de textes manuscrits dans des documents historiques
Scheidl - Word Beam Search : un algorithme de décodage de classification temporelle connexionniste

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2024-12-30
taille 50MB
Provenant de Github

Applications connexes

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
node telegram bot api

Code Source AI

v0.50.0
typebot.io

Code Source AI

v3.1.2
python wechaty getting started

Code Source AI

1.0.0
waymo open dataset

Autre code source

December 2023 Update
termwind

Autres catégories

v2.3.0
wp functions

Autres catégories

1.0.0

Actualités connexes Tout