CTCWordBeamSearch ดาวน์โหลด - CTCWordBeamSearch ดาวน์โหลดซอร์สโค้ด

CTCWordBeamSearch

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

อัลกอริธึมการถอดรหัสการค้นหา CTC Word Beam

อัปเดต 2024: รองรับ Python เวอร์ชัน 3.11 และ 3.12
อัปเดต 2021: แพ็คเกจ Python เป็นวิธีการติดตั้งเริ่มต้น
อัปเดต 2020: แพ็คเกจ Python ที่สามารถติดตั้งได้

ตัวถอดรหัส Connectionist Temporal Classification (CTC) พร้อมพจนานุกรมและโมเดลภาษา (LM)

การติดตั้ง

ไปที่ระดับรูทของที่เก็บ
ดำเนินการ pip install .
ไปที่ tests/ และดำเนินการ pytest เพื่อตรวจสอบว่าการติดตั้งใช้งานได้หรือไม่

การใช้งาน

ตัวอย่างของเล่นต่อไปนี้แสดงวิธีใช้การค้นหาลำแสงคำ โมเดลสมมุติ (เช่น โมเดลการจดจำข้อความ) สามารถจดจำอักขระที่แตกต่างกัน 3 ตัว: "a", "b" และ " " (ช่องว่าง) คำในตัวอย่างของเล่นนั้นสามารถมีอักขระ "a" และ "b" ได้ (แต่ไม่ใช่ " " ซึ่งเป็นตัวแยกคำ) โมเดลภาษาได้รับการฝึกฝนจากคลังข้อความที่มีเพียงสองคำ: "a" และ "ba"

ในตัวอย่างโค้ดนี้ อินสแตนซ์ของการค้นหาลำแสงคำจะถูกสร้างขึ้น และอาร์เรย์ numpy ที่มีรูปร่าง TxBx(C+1) จะถูกถอดรหัส:

 import numpy as np
from word_beam_search import WordBeamSearch

corpus = 'a ba'  # two words "a" and "ba", separated by whitespace
chars = 'ab '  # the characters that can be recognized (in this order)
word_chars = 'ab'  # characters that form words

# RNN output
# 3 time-steps and 4 characters per time time ("a", "b", " ", CTC-blank)
mat = np . array ([[[ 0.9 , 0.1 , 0.0 , 0.0 ]], 
                [[ 0.0 , 0.0 , 0.0 , 1.0 ]],
                [[ 0.6 , 0.4 , 0.0 , 0.0 ]]]) 

# initialize word beam search (only do this once in your code)
wbs = WordBeamSearch ( 25 , 'Words' , 0.0 , corpus . encode ( 'utf8' ), chars . encode ( 'utf8' ), word_chars . encode ( 'utf8' ))

# compute label string
label_str = wbs . compute ( mat )

ตัวถอดรหัสส่งคืนรายการพร้อมสตริงป้ายกำกับที่ถอดรหัสแล้วสำหรับแต่ละองค์ประกอบแบตช์ หากต้องการรับสตริงอักขระในที่สุด ให้แมปแต่ละป้ายกำกับกับอักขระที่เกี่ยวข้อง:

 char_str = []  # decoded texts for batch
for curr_label_str in label_str :
    s = '' . join ([ chars [ label ] for label in curr_label_str ])
    char_str . append ( s )

ตัวอย่าง:

ทั้งตัวอย่างของเล่นนี้และตัวอย่างการรู้จำข้อความจริงสามารถพบได้ใน tests/test_word_beam_search.py
พื้นที่เก็บข้อมูล SimpleHTR ใช้ระบบรู้จำข้อความที่เขียนด้วยลายมือและเลือกใช้การค้นหาลำแสงคำ

เอกสารประกอบพารามิเตอร์

พารามิเตอร์ของตัวสร้างคลาส WordBeamSearch :

ความกว้างของลำแสง (beam_width): จำนวนคานที่เก็บไว้ต่อขั้นเวลา
โหมดการให้คะแนน (lm_type): ส่งผ่านหนึ่งในสี่สตริง (ไม่คำนึงถึงขนาดตัวพิมพ์) รันไทม์ที่เกี่ยวข้องกับขนาดพจนานุกรม W จะได้รับ
- "คำ": ใช้พจนานุกรมเท่านั้น ไม่มีการให้คะแนน: O(1)
- "NGrams": ใช้พจนานุกรมและคานคะแนนด้วย LM: O(log(W))
- "NGramsForecast": คาดการณ์ (เป็นไปได้) คำถัดไปและใช้ LM กับคำเหล่านี้: O(W*log(W))
- "NGramsForecastAndSample": จำกัดจำนวน (เป็นไปได้) คำถัดไปไม่เกิน 20 คำ: O(W)
การปรับให้เรียบ (lm_smoothing): LM ใช้การปรับให้เรียบของ add-k เพื่ออนุญาตให้ใช้คู่คำที่ไม่รู้จักจากข้อความการฝึกอบรม กล่าวคือ ความน่าจะเป็นของบิ๊กแกรมเป็นศูนย์ ตั้งค่าเป็นค่าระหว่าง 0 ถึง 1 เช่น 0.01 หากต้องการปิดใช้งานการปรับให้เรียบ ให้ตั้งค่าเป็น 0
ข้อความ (คลังข้อมูล): กำหนดเป็นสตริงที่เข้ารหัส UTF8 การดำเนินการสร้างพจนานุกรมและ (เป็นทางเลือก) LM จากพจนานุกรม
อักขระ (ตัวอักษร): กำหนดให้เป็นสตริงที่เข้ารหัส UTF8 หากจำนวนอักขระเป็น C เอาต์พุต RNN จะต้องมีขนาด TxBx(C+1) โดยรายการสุดท้ายแสดงถึงป้ายกำกับ CTC-ว่าง การเรียงลำดับอักขระจะต้องสอดคล้องกับการเรียงลำดับในเอาต์พุต RNN เช่น หาก RNN เอาท์พุตความน่าจะเป็นสำหรับ "a", "b", " " และ CTC-blank ตามลำดับนี้ จะต้องส่งสตริง "ab "
อักขระ Word (word_chars): กำหนดให้เป็นสตริงที่เข้ารหัส UTF8 กำหนดวิธีที่อัลกอริทึมแยกคำออกจากข้อความ หากอักขระคำคือ "ab" และส่งผ่านข้อความ "aa ab bbb a" คำว่า "aa", "ab" และ "bbb" จะถูกแยกและใช้สำหรับพจนานุกรมและ LM เพื่อให้สามารถจดจำคำหลายคำได้ (เช่น บรรทัดข้อความ) อักขระคำจะต้องเป็นส่วนย่อยของอักขระที่ RNN รู้จัก (เช่น ต้องมีอักขระแยกคำอย่างน้อยหนึ่งตัว เช่น อักขระเว้นวรรค): 0<len(wordChars)<len(chars) . ในกรณีที่ต้องตรวจพบเพียงคำเดียว ไม่จำเป็นต้องแยกอักขระ ดังนั้นพารามิเตอร์ทั้งสองจึงอาจเท่ากัน: 0<len(wordChars)<=len(chars)

ป้อนข้อมูลในวิธี WordBeamSearch.compute :

เมทริกซ์อินพุต (เสื่อ)
- อาร์เรย์จำนวนมาก
- รูปร่าง TxBx(C+1)
- T คือจำนวนขั้นตอนเวลา B คือจำนวนองค์ประกอบแบตช์ และ C คือจำนวนอักขระ
- softmax-function ใช้แล้ว
- CTC-blank ต้องเป็นรายการสุดท้ายตามมิติอักขระในเมทริกซ์

อัลกอริทึม

การค้นหาลำแสงคำเป็นอัลกอริธึมการถอดรหัส CTC ใช้สำหรับงานการรู้จำลำดับ เช่น การรู้จำข้อความที่เขียนด้วยลายมือ หรือการรู้จำเสียงพูดอัตโนมัติ

บริบท

คุณสมบัติหลักสี่ประการของการค้นหาลำแสงคำคือ:

คำที่จำกัดโดยพจนานุกรม
อนุญาตให้มีอักขระที่ไม่ใช่คำจำนวนเท่าใดก็ได้ระหว่างคำ (ตัวเลข เครื่องหมายวรรคตอน)
โมเดลภาษาระดับคำเสริม (LM)
เร็วกว่าการผ่านโทเค็น

ตัวอย่างต่อไปนี้แสดงกรณีการใช้งานทั่วไปของการค้นหาลำแสงคำพร้อมกับผลลัพธ์ที่ได้รับจากตัวถอดรหัสที่แตกต่างกันห้าตัว การถอดรหัสเส้นทางที่ดีที่สุดและการค้นหาเส้นทางแบบวานิลลาบีมจะทำให้คำผิด เนื่องจากตัวถอดรหัสเหล่านี้ใช้เฉพาะเอาต์พุตที่มีสัญญาณรบกวนของโมเดลออปติคัลเท่านั้น การขยายการค้นหาลำแสงวานิลลาด้วย LM ระดับตัวละครจะปรับปรุงผลลัพธ์โดยอนุญาตเฉพาะลำดับอักขระที่เป็นไปได้เท่านั้น การส่งโทเค็นใช้พจนานุกรมและ LM ระดับคำ ดังนั้นจึงทำให้ทุกคำถูกต้อง อย่างไรก็ตาม ไม่สามารถรับรู้สตริงอักขระที่กำหนดเอง เช่น ตัวเลขได้ การค้นหาลำแสงคำสามารถจดจำคำศัพท์ได้โดยใช้พจนานุกรม แต่ยังสามารถระบุอักขระที่ไม่ใช่คำได้อย่างถูกต้องอีกด้วย

การเปรียบเทียบ

ข้อมูลเพิ่มเติม:

ภาพรวมโดยย่ออยู่ในโปสเตอร์
รายละเอียดเพิ่มเติมสามารถพบได้ในรายงาน ICFHR 2018

บริการพิเศษ

ต้นแบบ Python: extras/prototype/
การดำเนินการแบบกำหนดเองของ TensorFlow: extras/tf/

การอ้างอิง

โปรดอ้างอิงบทความต่อไปนี้หากคุณใช้การค้นหาแบบลำแสงคำในงานวิจัยของคุณ

 @inproceedings{scheidl2018wordbeamsearch,
	title = {Word Beam Search: A Connectionist Temporal Classification Decoding Algorithm},
	author = {Scheidl, H. and Fiel, S. and Sablatnig, R.},
	booktitle = {16th International Conference on Frontiers in Handwriting Recognition},
	pages = {253--258},
	year = {2018},
	organization = {IEEE}
}

อ้างอิง

ค้นหา Word Beam: อัลกอริธึมการถอดรหัส CTC
การถอดรหัสการค้นหาลำแสงในโครงข่ายประสาทเทียมที่ได้รับการฝึกอบรมจาก CTC
Scheidl - การรู้จำข้อความที่เขียนด้วยลายมือในเอกสารทางประวัติศาสตร์
Scheidl - การค้นหาลำแสงคำ: อัลกอริธึมการถอดรหัสการจำแนกประเภทการเชื่อมต่อชั่วคราว

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2024-12-30
ขนาด 50MB
มาจาก Github

แอปที่เกี่ยวข้อง

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
node telegram bot api

โค้ดแหล่งที่มา AI

v0.50.0
typebot.io

โค้ดแหล่งที่มา AI

v3.1.2
python wechaty getting started

โค้ดแหล่งที่มา AI

1.0.0
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
termwind

หมวดหมู่อื่นๆ

v2.3.0
wp functions

หมวดหมู่อื่นๆ

1.0.0

ข้อมูลที่เกี่ยวข้อง ทั้งหมด