CTCWordBeamSearch -Download - CTCWordBeamSearch -Quellcode-Download

CTCWordBeamSearch

AI-Quellcode

1.0.0

Herunterladen

CTC Word Beam Search-Dekodierungsalgorithmus

Update 2024: Unterstützt die Python-Versionen 3.11 und 3.12
Update 2021: Das Python-Paket ist die Standardinstallationsmethode
Update 2020: installierbares Python-Paket

Connectionist Temporal Classification (CTC)-Decoder mit Wörterbuch und Sprachmodell (LM).

Installation

Gehen Sie zur Stammebene des Repositorys
Führen Sie pip install .
Gehen Sie zu tests/ und führen Sie pytest aus, um zu überprüfen, ob die Installation funktioniert hat

Verwendung

Das folgende Spielzeugbeispiel zeigt, wie die Wortstrahlsuche verwendet wird. Das hypothetische Modell (z. B. ein Texterkennungsmodell) ist in der Lage, drei verschiedene Zeichen zu erkennen: „a“, „b“ und „ “ (Leerzeichen). Wörter in diesem Spielzeugbeispiel können die Zeichen „a“ und „b“ enthalten (jedoch nicht „ “, das das Worttrennzeichen darstellt). Das Sprachmodell wird aus einem Textkorpus trainiert, der nur zwei Wörter enthält: „a“ und „ba“.

In diesem Codeausschnitt wird eine Instanz der Wortstrahlsuche erstellt und ein TxBx(C+1)-förmiges Numpy-Array dekodiert:

 import numpy as np
from word_beam_search import WordBeamSearch

corpus = 'a ba'  # two words "a" and "ba", separated by whitespace
chars = 'ab '  # the characters that can be recognized (in this order)
word_chars = 'ab'  # characters that form words

# RNN output
# 3 time-steps and 4 characters per time time ("a", "b", " ", CTC-blank)
mat = np . array ([[[ 0.9 , 0.1 , 0.0 , 0.0 ]], 
                [[ 0.0 , 0.0 , 0.0 , 1.0 ]],
                [[ 0.6 , 0.4 , 0.0 , 0.0 ]]]) 

# initialize word beam search (only do this once in your code)
wbs = WordBeamSearch ( 25 , 'Words' , 0.0 , corpus . encode ( 'utf8' ), chars . encode ( 'utf8' ), word_chars . encode ( 'utf8' ))

# compute label string
label_str = wbs . compute ( mat )

Der Decoder gibt eine Liste mit einer decodierten Label-Zeichenfolge für jedes Batch-Element zurück. Um schließlich die Zeichenfolgen zu erhalten, ordnen Sie jede Beschriftung dem entsprechenden Zeichen zu:

 char_str = []  # decoded texts for batch
for curr_label_str in label_str :
    s = '' . join ([ chars [ label ] for label in curr_label_str ])
    char_str . append ( s )

Beispiele:

Sowohl dieses Spielzeugbeispiel als auch ein echtes Texterkennungsbeispiel finden Sie in tests/test_word_beam_search.py
Das SimpleHTR-Repository implementiert ein handschriftliches Texterkennungssystem und nutzt optional die Wortstrahlsuche

Dokumentation von Parametern

Parameter des Konstruktors der WordBeamSearch -Klasse:

Strahlbreite (beam_width): Anzahl der Strahlen, die pro Zeitschritt beibehalten werden
Bewertungsmodus (lm_type): Übergeben Sie eine der vier Zeichenfolgen (ohne Berücksichtigung der Groß-/Kleinschreibung). Angegeben ist die Laufzeit in Bezug auf die Wörterbuchgröße W.
- „Wörter“: nur Wörterbuch verwenden, keine Bewertung: O(1)
- „NGrams“: Wörterbuch verwenden und Strahlen mit LM bewerten: O(log(W))
- „NGramsForecast“: (mögliche) nächste Wörter vorhersagen und LM auf diese Wörter anwenden: O(W*log(W))
- „NGramsForecastAndSample“: Anzahl der (möglichen) nächsten Wörter auf maximal 20 Wörter beschränken: O(W)
Glättung (lm_smoothing): LM verwendet Add-k-Glättung, um Wortpaare zuzulassen, die aus dem Trainingstext nicht bekannt sind, d. h. für die die Bigramm-Wahrscheinlichkeit Null ist. Stellen Sie Werte zwischen 0 und 1 ein, z. B. 0,01. Um die Glättung zu deaktivieren, stellen Sie den Wert auf 0 ein
Text (Korpus): wird als UTF8-codierte Zeichenfolge angegeben. Die Operation erstellt daraus ihr Wörterbuch und (optional) LM
Zeichen (chars): werden als UTF8-codierte Zeichenfolge angegeben. Wenn die Anzahl der Zeichen C beträgt, muss die RNN-Ausgabe die Größe TxBx(C+1) haben, wobei der letzte Eintrag das CTC-Leerzeichen darstellt. Die Reihenfolge der Zeichen muss mit der Reihenfolge in der RNN-Ausgabe übereinstimmen. Wenn das RNN beispielsweise die Wahrscheinlichkeiten für „a“, „b“, „“ und CTC-Blank in dieser Reihenfolge ausgibt, muss die Zeichenfolge „ab“ übergeben werden
Wortzeichen (word_chars): werden als UTF8-codierte Zeichenfolge angegeben. Definieren Sie, wie der Algorithmus Wörter aus dem Text extrahiert. Wenn die Wortzeichen „ab“ sind und der Text „aa ab bbb a“ übergeben wird, werden die Wörter „aa“, „ab“ und „bbb“ extrahiert und für das Wörterbuch und das LM verwendet. Um mehrere Wörter (z. B. eine Textzeile) erkennen zu können, müssen die Wortzeichen eine Teilmenge der vom RNN erkannten Zeichen sein (dh es muss mindestens ein worttrennendes Zeichen wie das Leerzeichen vorhanden sein): 0<len(wordChars)<len(chars) . Falls nur einzelne Wörter erkannt werden müssen, ist kein Trennzeichen erforderlich, daher können die beiden Parameter auch gleich sein: 0<len(wordChars)<=len(chars)

Eingabe in die WordBeamSearch.compute -Methode:

Eingabematrix (mat)
- Numpy-Array
- Form TxBx(C+1)
- T ist die Anzahl der Zeitschritte, B die Anzahl der Batch-Elemente und C die Anzahl der Zeichen
- Softmax-Funktion bereits angewendet
- CTC-blank muss der letzte Eintrag entlang der Zeichendimension in der Matrix sein

Algorithmus

Die Wortstrahlsuche ist ein CTC-Dekodierungsalgorithmus. Es wird für Sequenzerkennungsaufgaben wie handschriftliche Texterkennung oder automatische Spracherkennung verwendet.

Kontext

Die vier Haupteigenschaften der Wortstrahlsuche sind:

Durch das Wörterbuch eingeschränkte Wörter
Ermöglicht eine beliebige Anzahl von Nicht-Wort-Zeichen zwischen Wörtern (Zahlen, Satzzeichen)
Optionales Sprachmodell auf Wortebene (LM)
Schneller als Token-Passing

Das folgende Beispiel zeigt einen typischen Anwendungsfall der Wortstrahlsuche zusammen mit den Ergebnissen von fünf verschiedenen Decodern. Die beste Pfaddecodierung und die Vanilla-Beam-Suche führen zu falschen Wörtern, da diese Decoder nur den verrauschten Ausgang des optischen Modells verwenden. Die Erweiterung der Vanilla-Beam-Suche um einen LM auf Zeichenebene verbessert das Ergebnis, da nur wahrscheinliche Zeichenfolgen zugelassen werden. Beim Token-Passing werden ein Wörterbuch und ein LM auf Wortebene verwendet, sodass alle Wörter richtig sind. Es ist jedoch nicht in der Lage, beliebige Zeichenfolgen wie Zahlen zu erkennen. Die Wortstrahlsuche ist in der Lage, mithilfe eines Wörterbuchs Wörter zu erkennen, aber auch Nicht-Wort-Zeichen korrekt zu identifizieren.

Vergleich

Weitere Informationen:

Einen kurzen Überblick gibt das Poster
Weitere Einzelheiten finden Sie im ICFHR-Papier von 2018

Extras

Python-Prototyp: extras/prototype/
Benutzerdefinierte TensorFlow-Operation: extras/tf/

Zitat

Bitte zitieren Sie den folgenden Artikel, wenn Sie in Ihrer Forschungsarbeit die Wortstrahlsuche verwenden.

 @inproceedings{scheidl2018wordbeamsearch,
	title = {Word Beam Search: A Connectionist Temporal Classification Decoding Algorithm},
	author = {Scheidl, H. and Fiel, S. and Sablatnig, R.},
	booktitle = {16th International Conference on Frontiers in Handwriting Recognition},
	pages = {253--258},
	year = {2018},
	organization = {IEEE}
}

Referenzen

Word Beam Search: Ein CTC-Dekodierungsalgorithmus
Beam Search Decoding in CTC-trainierten neuronalen Netzen
Scheidl – Handschriftliche Texterkennung in historischen Dokumenten
Scheidl – Word Beam Search: Ein konnektionistischer Dekodierungsalgorithmus für die zeitliche Klassifizierung

Expandieren

Zusätzliche Informationen