Download CTCWordBeamSearch - Download do código-fonte CTCWordBeamSearch

CTCWordBeamSearch

Código-Fonte de IA

1.0.0

Baixar

Algoritmo de decodificação de pesquisa de feixe de palavras CTC

Atualização 2024: suporte para versões 3.11 e 3.12 do Python
Atualização 2021: o pacote Python é a forma padrão de instalação
Atualização 2020: pacote Python instalável

Decodificador de Classificação Temporal Conexionista (CTC) com dicionário e Modelo de Linguagem (LM).

Instalação

Vá para o nível raiz do repositório
Execute pip install .
Vá para tests/ e execute pytest para verificar se a instalação funcionou

Uso

O exemplo de brinquedo a seguir mostra como usar a pesquisa por feixe de palavras. O modelo hipotético (por exemplo, um modelo de reconhecimento de texto) é capaz de reconhecer 3 caracteres diferentes: "a", "b" e " " (espaço em branco). As palavras nesse exemplo de brinquedo podem conter os caracteres "a" e "b" (mas não " ", que é o separador de palavras). O modelo de linguagem é treinado a partir de um corpus de texto que contém apenas duas palavras: “a” e “ba”.

Neste trecho de código, uma instância de pesquisa de feixe de palavras é criada e uma matriz numpy em forma de TxBx(C+1) é decodificada:

 import numpy as np
from word_beam_search import WordBeamSearch

corpus = 'a ba'  # two words "a" and "ba", separated by whitespace
chars = 'ab '  # the characters that can be recognized (in this order)
word_chars = 'ab'  # characters that form words

# RNN output
# 3 time-steps and 4 characters per time time ("a", "b", " ", CTC-blank)
mat = np . array ([[[ 0.9 , 0.1 , 0.0 , 0.0 ]], 
                [[ 0.0 , 0.0 , 0.0 , 1.0 ]],
                [[ 0.6 , 0.4 , 0.0 , 0.0 ]]]) 

# initialize word beam search (only do this once in your code)
wbs = WordBeamSearch ( 25 , 'Words' , 0.0 , corpus . encode ( 'utf8' ), chars . encode ( 'utf8' ), word_chars . encode ( 'utf8' ))

# compute label string
label_str = wbs . compute ( mat )

O decodificador retorna uma lista com uma string de rótulo decodificada para cada elemento do lote. Para finalmente obter as strings de caracteres, mapeie cada rótulo para seu caractere correspondente:

 char_str = []  # decoded texts for batch
for curr_label_str in label_str :
    s = '' . join ([ chars [ label ] for label in curr_label_str ])
    char_str . append ( s )

Exemplos:

Tanto este exemplo de brinquedo quanto um exemplo real de reconhecimento de texto podem ser encontrados em tests/test_word_beam_search.py
O repositório SimpleHTR implementa um sistema de reconhecimento de texto manuscrito e, opcionalmente, usa pesquisa por feixe de palavras

Documentação de parâmetros

Parâmetros do construtor da classe WordBeamSearch :

Largura do feixe (beam_width): número de feixes que são mantidos por intervalo de tempo
Modo de pontuação (lm_type): passe uma das quatro strings (sem distinção entre maiúsculas e minúsculas). O tempo de execução em relação ao tamanho do dicionário W é fornecido.
- "Palavras": use apenas dicionário, sem pontuação: O(1)
- "NGrams": use dicionário e feixes de pontuação com LM: O(log(W))
- "NGramsForecast": prevê (possíveis) as próximas palavras e aplica LM a estas palavras: O(W*log(W))
- "NGramsForecastAndSample": restringe o número de (possíveis) próximas palavras para no máximo 20 palavras: O(W)
Suavização (lm_smoothing): LM usa suavização add-k para permitir pares de palavras que não são conhecidos no texto de treinamento, ou seja, para os quais a probabilidade do bigrama é zero. Defina valores entre 0 e 1, por exemplo, 0,01. Para desativar a suavização, defina como 0
Texto (corpus): é fornecido como uma string codificada em UTF8. A operação cria seu dicionário e (opcionalmente) LM a partir dele
Caracteres (chars): são fornecidos como uma string codificada em UTF8. Se o número de caracteres for C, então a saída RNN deve ter o tamanho TxBx(C+1) com a última entrada representando o rótulo CTC em branco. A ordem dos caracteres deve corresponder à ordem na saída RNN, por exemplo, se o RNN gerar as probabilidades para "a", "b", "" e CTC-blank nesta ordem, então a string "ab" deve ser passada
Caracteres do Word (word_chars): são fornecidos como uma string codificada em UTF8. Defina como o algoritmo extrai palavras do texto. Se os caracteres da palavra forem "ab" e o texto "aa ab bbb a" for passado, então as palavras "aa", "ab" e "bbb" serão extraídas e utilizadas para o dicionário e o LM. Para poder reconhecer múltiplas palavras (por exemplo, uma linha de texto), os caracteres da palavra devem ser um subconjunto dos caracteres reconhecidos pela RNN (ou seja, deve haver pelo menos um caractere de separação de palavras, como o caractere de espaço): 0<len(wordChars)<len(chars) . Caso apenas palavras isoladas tenham que ser detectadas, não há necessidade de caractere de separação, portanto os dois parâmetros também podem ser iguais: 0<len(wordChars)<=len(chars)

Entrada para o método WordBeamSearch.compute :

Matriz de entrada (mat)
- matriz numpy
- forma TxBx(C+1)
- T é o número de intervalos de tempo, B o número de elementos do lote e C o número de caracteres
- função softmax já aplicada
- CTC-blank deve ser a última entrada ao longo da dimensão do caractere na matriz

Algoritmo

A pesquisa de feixe de palavras é um algoritmo de decodificação CTC. Ele é usado para tarefas de reconhecimento de sequência, como reconhecimento de texto manuscrito ou reconhecimento automático de fala.

contexto

As quatro propriedades principais da pesquisa por feixe de palavras são:

Palavras restritas pelo dicionário
Permite um número arbitrário de caracteres que não sejam palavras entre palavras (números, sinais de pontuação)
Modelo de linguagem opcional em nível de palavra (LM)
Mais rápido que a passagem de token

O exemplo a seguir mostra um caso de uso típico de pesquisa por feixe de palavras junto com os resultados fornecidos por cinco decodificadores diferentes. A decodificação do melhor caminho e a pesquisa de feixe baunilha erram as palavras, pois esses decodificadores usam apenas a saída ruidosa do modelo óptico. Estender a pesquisa vanilla beam por um LM em nível de caractere melhora o resultado, permitindo apenas sequências de caracteres prováveis. A passagem de token usa um dicionário e um LM em nível de palavra e, portanto, acerta todas as palavras. No entanto, não é capaz de reconhecer cadeias de caracteres arbitrárias como números. A pesquisa por feixe de palavras é capaz de reconhecer as palavras usando um dicionário, mas também é capaz de identificar corretamente os caracteres que não são palavras.

comparação

Mais informações:

Uma breve visão geral é fornecida no pôster
Mais detalhes podem ser encontrados no documento do ICFHR 2018

Extras

Protótipo Python: extras/prototype/
Operação personalizada do TensorFlow: extras/tf/

Citação

Por favor, cite o artigo a seguir se você estiver usando a pesquisa por feixe de palavras em seu trabalho de pesquisa.

 @inproceedings{scheidl2018wordbeamsearch,
	title = {Word Beam Search: A Connectionist Temporal Classification Decoding Algorithm},
	author = {Scheidl, H. and Fiel, S. and Sablatnig, R.},
	booktitle = {16th International Conference on Frontiers in Handwriting Recognition},
	pages = {253--258},
	year = {2018},
	organization = {IEEE}
}

Referências

Word Beam Search: um algoritmo de decodificação CTC
Decodificação de pesquisa de feixe em redes neurais treinadas por CTC
Scheidl - Reconhecimento de Texto Manuscrito em Documentos Históricos
Scheidl - Word Beam Search: um algoritmo de decodificação de classificação temporal conexionista

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2024-12-30
tamanho 50MB
Vindo de Github

Aplicativos Relacionados

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
node telegram bot api

Código-Fonte de IA

v0.50.0
typebot.io

Código-Fonte de IA

v3.1.2
python wechaty getting started

Código-Fonte de IA

1.0.0
waymo open dataset

Outro código-fonte

December 2023 Update
termwind

Outras categorias

v2.3.0
wp functions

Outras categorias

1.0.0

Informações Relacionadas Todos