Unduh CTCWordBeamSearch - Unduh kode sumber CTCWordBeamSearch

CTCWordBeamSearch

Kode Sumber AI

1.0.0

Unduh

Algoritma Decoding Pencarian Kata Beam CTC

Pembaruan 2024: Mendukung Python versi 3.11 dan 3.12
Pembaruan 2021: Paket Python adalah cara instalasi default
Pembaruan 2020: paket Python yang dapat diinstal

Dekoder Connectionist Temporal Classification (CTC) dengan kamus dan Model Bahasa (LM).

Instalasi

Pergi ke tingkat akar repositori
Jalankan pip install .
Buka tests/ dan jalankan pytest untuk memeriksa apakah instalasi berhasil

Penggunaan

Contoh mainan berikut menunjukkan cara menggunakan pencarian berkas kata. Model hipotetis (misalnya model pengenalan teks) mampu mengenali 3 karakter berbeda: "a", "b" dan " " (spasi). Kata-kata pada contoh mainan tersebut boleh mengandung karakter "a" dan "b" (tetapi bukan " " yang merupakan pemisah kata). Model bahasa dilatih dari korpus teks yang hanya berisi dua kata: “a” dan “ba”.

Dalam cuplikan kode ini, sebuah instance pencarian berkas kata dibuat, dan array numpy berbentuk TxBx(C+1) didekodekan:

 import numpy as np
from word_beam_search import WordBeamSearch

corpus = 'a ba'  # two words "a" and "ba", separated by whitespace
chars = 'ab '  # the characters that can be recognized (in this order)
word_chars = 'ab'  # characters that form words

# RNN output
# 3 time-steps and 4 characters per time time ("a", "b", " ", CTC-blank)
mat = np . array ([[[ 0.9 , 0.1 , 0.0 , 0.0 ]], 
                [[ 0.0 , 0.0 , 0.0 , 1.0 ]],
                [[ 0.6 , 0.4 , 0.0 , 0.0 ]]]) 

# initialize word beam search (only do this once in your code)
wbs = WordBeamSearch ( 25 , 'Words' , 0.0 , corpus . encode ( 'utf8' ), chars . encode ( 'utf8' ), word_chars . encode ( 'utf8' ))

# compute label string
label_str = wbs . compute ( mat )

Decoder mengembalikan daftar dengan string label yang didekodekan untuk setiap elemen batch. Untuk akhirnya mendapatkan string karakter, petakan setiap label ke karakter yang sesuai:

 char_str = []  # decoded texts for batch
for curr_label_str in label_str :
    s = '' . join ([ chars [ label ] for label in curr_label_str ])
    char_str . append ( s )

Contoh:

Contoh mainan ini dan contoh pengenalan teks nyata dapat ditemukan di tests/test_word_beam_search.py
Repositori SimpleHTR mengimplementasikan sistem pengenalan teks tulisan tangan dan secara opsional menggunakan pencarian berkas kata

Dokumentasi parameter

Parameter konstruktor kelas WordBeamSearch :

Lebar Balok (beam_width): jumlah balok yang disimpan per langkah waktu
Mode penilaian (lm_type): meneruskan salah satu dari empat string (tidak peka huruf besar-kecil). Runtime sehubungan dengan ukuran kamus W diberikan.
- "Kata-kata": hanya menggunakan kamus, tanpa penilaian: O(1)
- "NGrams": gunakan kamus dan skor balok dengan LM: O(log(W))
- "NGramsForecast": memperkirakan (mungkin) kata berikutnya dan menerapkan LM pada kata-kata ini: O(W*log(W))
- "NGramsForecastAndSample": batasi jumlah (kemungkinan) kata berikutnya maksimal 20 kata: O(W)
Pemulusan (lm_smoothing): LM menggunakan pemulusan add-k untuk memungkinkan pasangan kata yang tidak diketahui dari teks pelatihan, yaitu yang probabilitas bigramnya nol. Atur ke nilai antara 0 dan 1, misalnya 0,01. Untuk menonaktifkan penghalusan, setel ke 0
Teks (korpus): diberikan sebagai string berkode UTF8. Operasi ini membuat kamusnya dan (opsional) LM darinya
Karakter (karakter): diberikan sebagai string yang dikodekan UTF8. Jika jumlah karakternya adalah C, maka keluaran RNN harus berukuran TxBx(C+1) dengan entri terakhir mewakili label kosong CTC. Urutan karakter harus sesuai dengan urutan pada keluaran RNN, misal jika RNN mengeluarkan probabilitas "a", "b", " " dan CTC-blank dalam urutan ini, maka string "ab " harus diteruskan
Karakter kata (word_chars): diberikan sebagai string yang dikodekan UTF8. Tentukan bagaimana algoritma mengekstrak kata-kata dari teks. Jika karakter kata adalah "ab", dan teks "aa ab bbb a" dilewatkan, maka kata "aa", "ab" dan "bbb" akan diekstraksi dan digunakan untuk kamus dan LM. Untuk dapat mengenali beberapa kata (misalnya baris teks), karakter kata harus merupakan subset dari karakter yang dikenali oleh RNN (yaitu harus ada setidaknya satu karakter pemisah kata seperti karakter spasi): 0<len(wordChars)<len(chars) . Jika hanya satu kata yang harus dideteksi, tidak diperlukan karakter pemisah, oleh karena itu kedua parameter mungkin juga sama: 0<len(wordChars)<=len(chars)

Masukan ke metode WordBeamSearch.compute :

Matriks masukan (mat)
- larik numpy
- bentuk TxBx(C+1)
- T adalah jumlah langkah waktu, B jumlah elemen batch dan C jumlah karakter
- fungsi softmax sudah diterapkan
- CTC-blank harus menjadi entri terakhir sepanjang dimensi karakter dalam matriks

Algoritma

Pencarian berkas kata adalah algoritma decoding CTC. Ini digunakan untuk tugas pengenalan urutan seperti pengenalan teks tulisan tangan atau pengenalan ucapan otomatis.

konteks

Empat properti utama pencarian berkas kata adalah:

Kata-kata dibatasi oleh kamus
Mengizinkan jumlah karakter non-kata yang sewenang-wenang di antara kata-kata (angka, tanda baca)
Model Bahasa Tingkat Kata (LM) opsional
Lebih cepat dari penyampaian token

Contoh berikut menunjukkan kasus penggunaan pencarian berkas kata bersama dengan hasil yang diberikan oleh lima dekoder berbeda. Penguraian kode jalur terbaik dan pencarian berkas vanila menghasilkan kata-kata yang salah karena dekoder ini hanya menggunakan keluaran berisik dari model optik. Memperluas pencarian pancaran vanilla dengan LM tingkat karakter akan meningkatkan hasil dengan hanya mengizinkan kemungkinan urutan karakter. Pengoperan token menggunakan kamus dan LM tingkat kata sehingga membuat semua kata menjadi benar. Namun, ia tidak dapat mengenali string karakter sembarangan seperti angka. Pencarian berkas kata mampu mengenali kata-kata dengan menggunakan kamus, namun juga mampu mengidentifikasi karakter non-kata dengan benar.

perbandingan

Informasi lebih lanjut:

Gambaran singkat diberikan di poster
Rincian lebih lanjut dapat ditemukan dalam makalah ICFHR 2018

Ekstra

Prototipe Python: extras/prototype/
Operasi khusus TensorFlow: extras/tf/

Kutipan

Silakan kutip makalah berikut jika Anda menggunakan pencarian berkas kata dalam pekerjaan penelitian Anda.

 @inproceedings{scheidl2018wordbeamsearch,
	title = {Word Beam Search: A Connectionist Temporal Classification Decoding Algorithm},
	author = {Scheidl, H. and Fiel, S. and Sablatnig, R.},
	booktitle = {16th International Conference on Frontiers in Handwriting Recognition},
	pages = {253--258},
	year = {2018},
	organization = {IEEE}
}

Referensi

Pencarian Word Beam: Algoritma Decoding CTC
Decoding Penelusuran Sinar di Jaringan Neural yang dilatih CTC
Scheidl - Pengenalan Teks Tulisan Tangan dalam Dokumen Sejarah
Scheidl - Pencarian Sinar Kata: Algoritma Penguraian Klasifikasi Temporal Koneksionis

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2024-12-30
ukuran 50MB
Berasal dari Github

Aplikasi Terkait

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
node telegram bot api

Kode Sumber AI

v0.50.0
typebot.io

Kode Sumber AI

v3.1.2
python wechaty getting started

Kode Sumber AI

1.0.0
waymo open dataset

Kode sumber lainnya

December 2023 Update
termwind

Kategori lainnya

v2.3.0
wp functions

Kategori lainnya

1.0.0

Informasi Terkait Semua