تنزيل CTCWordBeamSearch - تنزيل كود مصدر CTCWordBeamSearch

CTCWordBeamSearch

كود الذكاء الاصطناعي

1.0.0

تنزيل

خوارزمية فك تشفير بحث شعاع الكلمات CTC

تحديث 2024: دعم إصدارات Python 3.11 و3.12
تحديث 2021: حزمة Python هي طريقة التثبيت الافتراضية
تحديث 2020: حزمة بايثون القابلة للتثبيت

وحدة فك ترميز التصنيف الزمني الاتصالي (CTC) مع القاموس ونموذج اللغة (LM).

تثبيت

انتقل إلى المستوى الجذر للمستودع
تنفيذ pip install .
انتقل إلى tests/ وقم بتنفيذ pytest للتحقق من نجاح التثبيت

الاستخدام

يوضح مثال اللعبة التالي كيفية استخدام البحث بشعاع الكلمات. النموذج الافتراضي (على سبيل المثال، نموذج التعرف على النص) قادر على التعرف على 3 أحرف مختلفة: "a" و"b" و"" (مسافة بيضاء). يمكن أن تحتوي الكلمات الموجودة في مثال اللعبة هذا على الأحرف "a" و"b" (ولكن ليس " " وهو فاصل الكلمات). يتم تدريب النموذج اللغوي من مجموعة نصية تحتوي على كلمتين فقط: "a" و"ba".

في مقتطف التعليمات البرمجية هذا، يتم إنشاء مثيل للبحث في حزمة الكلمات، ويتم فك تشفير مصفوفة numpy على شكل TxBx(C+1):

 import numpy as np
from word_beam_search import WordBeamSearch

corpus = 'a ba'  # two words "a" and "ba", separated by whitespace
chars = 'ab '  # the characters that can be recognized (in this order)
word_chars = 'ab'  # characters that form words

# RNN output
# 3 time-steps and 4 characters per time time ("a", "b", " ", CTC-blank)
mat = np . array ([[[ 0.9 , 0.1 , 0.0 , 0.0 ]], 
                [[ 0.0 , 0.0 , 0.0 , 1.0 ]],
                [[ 0.6 , 0.4 , 0.0 , 0.0 ]]]) 

# initialize word beam search (only do this once in your code)
wbs = WordBeamSearch ( 25 , 'Words' , 0.0 , corpus . encode ( 'utf8' ), chars . encode ( 'utf8' ), word_chars . encode ( 'utf8' ))

# compute label string
label_str = wbs . compute ( mat )

تقوم وحدة فك الترميز بإرجاع قائمة تحتوي على سلسلة تسميات تم فك تشفيرها لكل عنصر دفعة. للحصول على سلاسل الأحرف أخيرًا، قم بتعيين كل تسمية إلى الحرف المقابل لها:

 char_str = []  # decoded texts for batch
for curr_label_str in label_str :
    s = '' . join ([ chars [ label ] for label in curr_label_str ])
    char_str . append ( s )

أمثلة:

يمكن العثور على كل من مثال اللعبة ومثال التعرف على النص الحقيقي في tests/test_word_beam_search.py
يطبق مستودع SimpleHTR نظامًا للتعرف على النص المكتوب بخط اليد ويستخدم بشكل اختياري البحث في شعاع الكلمات

توثيق المعلمات

معلمات مُنشئ فئة WordBeamSearch :

عرض الشعاع (beam_width): عدد الحزم التي يتم الاحتفاظ بها في كل خطوة زمنية
وضع التسجيل (lm_type): قم بتمرير إحدى السلاسل الأربع (غير حساسة لحالة الأحرف). يتم إعطاء وقت التشغيل فيما يتعلق بحجم القاموس W.
- "الكلمات": استخدم القاموس فقط، بدون تسجيل: O(1)
- "NGrams": استخدم القاموس وسجل الحزم باستخدام LM: O(log(W))
- "NGramsForecast": التنبؤ (المحتمل) بالكلمات التالية وتطبيق LM على هذه الكلمات: O(W*log(W))
- "NGramsForecastAndSample": تقييد عدد الكلمات التالية (المحتملة) بـ 20 كلمة على الأكثر: O(W)
التجانس (lm_smoothing): يستخدم LM تجانس add-k للسماح بأزواج الكلمات غير المعروفة من نص التدريب، أي التي يكون احتمال البيجرام الخاص بها صفرًا. اضبط على القيم بين 0 و1، على سبيل المثال 0.01. لتعطيل التجانس، اضبط على 0
النص (المجموعة): يتم تقديمه كسلسلة مشفرة UTF8. تقوم العملية بإنشاء القاموس الخاص بها و(اختياريًا) LM منه
الأحرف (chars): يتم تقديمها كسلسلة مشفرة UTF8. إذا كان عدد الأحرف هو C، فيجب أن يكون حجم مخرجات RNN هو TxBx(C+1) وأن يمثل الإدخال الأخير تسمية CTC الفارغة. يجب أن يتوافق ترتيب الأحرف مع الترتيب في مخرجات RNN، على سبيل المثال، إذا أخرج RNN احتمالات "a" و"b" و" " وCTC-فارغة بهذا الترتيب، فيجب تمرير السلسلة "ab"
أحرف الكلمة (word_chars): يتم تقديمها كسلسلة مشفرة UTF8. تحديد كيفية قيام الخوارزمية باستخراج الكلمات من النص. إذا كانت أحرف الكلمة هي "ab"، وتم تمرير النص "aa ab bbb a"، فسيتم استخراج الكلمات "aa" و"ab" و"bbb" واستخدامها للقاموس وLM. لتتمكن من التعرف على كلمات متعددة (على سبيل المثال، سطر نص)، يجب أن تكون أحرف الكلمة مجموعة فرعية من الأحرف التي يتعرف عليها RNN (أي يجب أن يكون هناك حرف واحد على الأقل يفصل بين الكلمات مثل حرف المسافة): 0<len(wordChars)<len(chars) . في حالة الحاجة إلى اكتشاف كلمات مفردة فقط، ليست هناك حاجة إلى حرف فاصل، وبالتالي قد تكون المعلمتان متساويتين أيضًا: 0<len(wordChars)<=len(chars)

الإدخال إلى أسلوب WordBeamSearch.compute :

مصفوفة الإدخال (حصيرة)
- مجموعة numpy
- الشكل TxBx(C+1)
- T هو عدد الخطوات الزمنية، وB هو عدد عناصر الدُفعة، وC هو عدد الأحرف
- تم تطبيق وظيفة softmax بالفعل
- يجب أن يكون CTC الفارغ هو الإدخال الأخير على طول بُعد الحرف في المصفوفة

خوارزمية

البحث عن شعاع الكلمات هو خوارزمية فك تشفير CTC. يتم استخدامه لمهام التعرف على التسلسل مثل التعرف على النص المكتوب بخط اليد أو التعرف التلقائي على الكلام.

سياق

الخصائص الأربع الرئيسية للبحث بشعاع الكلمات هي:

الكلمات مقيدة بالقاموس
يسمح بعدد عشوائي من الأحرف غير الكلمة بين الكلمات (الأرقام وعلامات الترقيم)
نموذج اللغة الاختياري على مستوى الكلمة (LM)
أسرع من تمرير الرمز

يوضح النموذج التالي حالة استخدام نموذجية للبحث في حزمة الكلمات بالإضافة إلى النتائج المقدمة من خمسة أجهزة فك تشفير مختلفة. أفضل فك تشفير المسار والبحث عن شعاع الفانيليا يخطئان في الكلمات لأن أجهزة فك التشفير هذه تستخدم فقط الإخراج الصاخب للنموذج البصري. يؤدي توسيع البحث عن شعاع الفانيليا بواسطة LM على مستوى الحرف إلى تحسين النتيجة من خلال السماح فقط بتسلسلات الأحرف المحتملة. يستخدم تمرير الرمز المميز قاموسًا وLM على مستوى الكلمة، وبالتالي يحصل على كل الكلمات بشكل صحيح. ومع ذلك، فهو غير قادر على التعرف على سلاسل الأحرف العشوائية مثل الأرقام. يستطيع البحث في شعاع الكلمات التعرف على الكلمات باستخدام القاموس، ولكنه قادر أيضًا على التعرف بشكل صحيح على الأحرف غير الكلمة.

مقارنة

مزيد من المعلومات:

يتم تقديم نظرة عامة قصيرة في الملصق
يمكن العثور على مزيد من التفاصيل في ورقة ICFHR 2018

إضافات

نموذج بايثون الأولي: extras/prototype/
عملية TensorFlow المخصصة: extras/tf/

الاقتباس

يرجى الاستشهاد بالمقالة التالية إذا كنت تستخدم البحث بشعاع الكلمات في عملك البحثي.

 @inproceedings{scheidl2018wordbeamsearch,
	title = {Word Beam Search: A Connectionist Temporal Classification Decoding Algorithm},
	author = {Scheidl, H. and Fiel, S. and Sablatnig, R.},
	booktitle = {16th International Conference on Frontiers in Handwriting Recognition},
	pages = {253--258},
	year = {2018},
	organization = {IEEE}
}