Descarga de CTCWordBeamSearch - Descarga del código fuente CTCWordBeamSearch

CTCWordBeamSearch

Código Fuente de IA

1.0.0

Descargar

Algoritmo de decodificación de búsqueda de haz de palabras CTC

Actualización 2024: compatible con las versiones 3.11 y 3.12 de Python
Actualización 2021: el paquete Python es la forma predeterminada de instalación
Actualización 2020: paquete Python instalable

Decodificador de Clasificación Temporal Conexionista (CTC) con diccionario y Modelo de Lenguaje (LM).

Instalación

Ir al nivel raíz del repositorio
Ejecute pip install .
Vaya a tests/ y ejecute pytest para comprobar si la instalación funcionó

Uso

El siguiente ejemplo de juguete muestra cómo utilizar la búsqueda por haz de palabras. El modelo hipotético (por ejemplo, un modelo de reconocimiento de texto) es capaz de reconocer 3 caracteres diferentes: "a", "b" y " " (espacios en blanco). Las palabras en ese ejemplo de juguete pueden contener los caracteres "a" y "b" (pero no " ", que es el separador de palabras). El modelo de lenguaje se entrena a partir de un corpus de texto que contiene sólo dos palabras: "a" y "ba".

En este fragmento de código se crea una instancia de búsqueda por haz de palabras y se decodifica una matriz numpy con forma de TxBx(C+1):

 import numpy as np
from word_beam_search import WordBeamSearch

corpus = 'a ba'  # two words "a" and "ba", separated by whitespace
chars = 'ab '  # the characters that can be recognized (in this order)
word_chars = 'ab'  # characters that form words

# RNN output
# 3 time-steps and 4 characters per time time ("a", "b", " ", CTC-blank)
mat = np . array ([[[ 0.9 , 0.1 , 0.0 , 0.0 ]], 
                [[ 0.0 , 0.0 , 0.0 , 1.0 ]],
                [[ 0.6 , 0.4 , 0.0 , 0.0 ]]]) 

# initialize word beam search (only do this once in your code)
wbs = WordBeamSearch ( 25 , 'Words' , 0.0 , corpus . encode ( 'utf8' ), chars . encode ( 'utf8' ), word_chars . encode ( 'utf8' ))

# compute label string
label_str = wbs . compute ( mat )

El decodificador devuelve una lista con una cadena de etiqueta decodificada para cada elemento del lote. Para finalmente obtener las cadenas de caracteres, asigne cada etiqueta a su carácter correspondiente:

 char_str = []  # decoded texts for batch
for curr_label_str in label_str :
    s = '' . join ([ chars [ label ] for label in curr_label_str ])
    char_str . append ( s )

Ejemplos:

Tanto este ejemplo de juguete como un ejemplo de reconocimiento de texto real se pueden encontrar en tests/test_word_beam_search.py
El repositorio SimpleHTR implementa un sistema de reconocimiento de texto escrito a mano y, opcionalmente, utiliza la búsqueda por haz de palabras.

Documentación de parámetros

Parámetros del constructor de la clase WordBeamSearch :

Ancho de haz (beam_width): número de haces que se mantienen por paso de tiempo
Modo de puntuación (lm_type): pasa una de las cuatro cadenas (no distingue entre mayúsculas y minúsculas). Se proporciona el tiempo de ejecución con respecto al tamaño del diccionario W.
- "Palabras": utilice sólo el diccionario, sin puntuación: O(1)
- "NGrams": use el diccionario y puntue las vigas con LM: O(log(W))
- "NGramsForecast": pronostica (posibles) las siguientes palabras y aplica LM a estas palabras: O(W*log(W))
- "NGramsForecastAndSample": restringe el número de (posibles) palabras siguientes a un máximo de 20 palabras: O(W)
Suavizado (lm_smoothing): LM utiliza el suavizado add-k para permitir pares de palabras que no se conocen en el texto de entrenamiento, es decir, para las cuales la probabilidad de bigrama es cero. Establezca valores entre 0 y 1, por ejemplo, 0,01. Para desactivar el suavizado, configúrelo en 0
Texto (corpus): se proporciona como una cadena codificada en UTF8. La operación crea su diccionario y (opcionalmente) LM a partir de él.
Caracteres (chars): se proporciona como una cadena codificada en UTF8. Si el número de caracteres es C, entonces la salida RNN debe tener el tamaño TxBx(C+1) y la última entrada representa la etiqueta CTC en blanco. El orden de los caracteres debe corresponder al orden en la salida RNN, por ejemplo, si el RNN genera las probabilidades para "a", "b", " " y CTC en blanco en este orden, entonces se debe pasar la cadena "ab ".
Caracteres de palabra (word_chars): se proporcionan como una cadena codificada en UTF8. Defina cómo el algoritmo extrae palabras del texto. Si los caracteres de la palabra son "ab" y se pasa el texto "aa ab bbb a", las palabras "aa", "ab" y "bbb" se extraerán y utilizarán para el diccionario y el LM. Para poder reconocer varias palabras (por ejemplo, una línea de texto), los caracteres de la palabra deben ser un subconjunto de los caracteres reconocidos por el RNN (es decir, debe haber al menos un carácter de separación de palabras como el carácter de espacio): 0<len(wordChars)<len(chars) . En caso de que solo se deban detectar palabras individuales, no es necesario un carácter de separación, por lo que los dos parámetros también pueden ser iguales: 0<len(wordChars)<=len(chars)

Entrada al método WordBeamSearch.compute :

Matriz de entrada (mat)
- matriz numerosa
- forma TxBx(C+1)
- T es el número de pasos de tiempo, B el número de elementos del lote y C el número de caracteres
- función softmax ya aplicada
- CTC-blank debe ser la última entrada a lo largo de la dimensión del carácter en la matriz

Algoritmo

La búsqueda por haz de palabras es un algoritmo de decodificación CTC. Se utiliza para tareas de reconocimiento de secuencias, como el reconocimiento de texto escrito a mano o el reconocimiento automático de voz.

contexto

Las cuatro propiedades principales de la búsqueda por haz de palabras son:

Palabras restringidas por el diccionario
Permite un número arbitrario de caracteres que no son palabras entre palabras (números, signos de puntuación)
Modelo de lenguaje a nivel de palabra (LM) opcional
Más rápido que el paso de tokens

El siguiente ejemplo muestra un caso de uso típico de búsqueda por haz de palabras junto con los resultados proporcionados por cinco decodificadores diferentes. La mejor decodificación de ruta y la búsqueda de haz básico interpretan mal las palabras, ya que estos decodificadores solo utilizan la salida ruidosa del modelo óptico. Ampliar la búsqueda de haz básico mediante un LM a nivel de personaje mejora el resultado al permitir solo secuencias de caracteres probables. El paso de tokens utiliza un diccionario y un LM a nivel de palabra y, por lo tanto, obtiene todas las palabras correctamente. Sin embargo, no puede reconocer cadenas de caracteres arbitrarias como números. La búsqueda por haz de palabras puede reconocer las palabras mediante el uso de un diccionario, pero también puede identificar correctamente los caracteres que no son palabras.

comparación

Más información:

En el cartel se ofrece una breve descripción.
Se pueden encontrar más detalles en el documento de la ICFHR 2018.

Extras

Prototipo de Python: extras/prototype/
Operación personalizada de TensorFlow: extras/tf/

Citación

Cite el siguiente artículo si utiliza la búsqueda por haces de palabras en su trabajo de investigación.

 @inproceedings{scheidl2018wordbeamsearch,
	title = {Word Beam Search: A Connectionist Temporal Classification Decoding Algorithm},
	author = {Scheidl, H. and Fiel, S. and Sablatnig, R.},
	booktitle = {16th International Conference on Frontiers in Handwriting Recognition},
	pages = {253--258},
	year = {2018},
	organization = {IEEE}
}

Referencias

Búsqueda por haz de palabras: un algoritmo de decodificación CTC
Decodificación de búsqueda de haces en redes neuronales entrenadas con CTC
Scheidl: reconocimiento de texto escrito a mano en documentos históricos
Scheidl - Búsqueda por haz de palabras: un algoritmo de decodificación de clasificación temporal conexionista

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2024-12-30
tamaño 50MB
Proviene de Github

Aplicaciones relacionadas

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
node telegram bot api

Código Fuente de IA

v0.50.0
typebot.io

Código Fuente de IA

v3.1.2
python wechaty getting started

Código Fuente de IA

1.0.0
waymo open dataset

Otro código fuente

December 2023 Update
termwind

Otras categorias

v2.3.0
wp functions

Otras categorias

1.0.0

Información relacionada Todo