تنزيل EfficientWord Net - تنزيل كود مصدر EfficientWord Net

EfficientWord Net

كود الذكاء الاصطناعي

v.0.2.2

تنزيل

EfficientWord-Net: اكتشاف الكلمات المهمة استنادًا إلى التعلم القليل

يحتاج المساعدون المنزليون إلى عبارات خاصة تسمى الكلمات المهمة لتنشيطها (على سبيل المثال، "OK Google"). EfficientWord-Net هو محرك للكشف عن الكلمات المهمة يعتمد على التعلم المحدود الذي يسمح للمطورين بإضافة كلمات مهمة مخصصة إلى برامجهم دون رسوم إضافية. المكتبة مكتوبة بالكامل بلغة Python وتستخدم تطبيق TFLite من Google لاستدلال أسرع في الوقت الفعلي. إنه مستوحى من بنية الشبكة السيامية الخاصة بـ FaceNet ويعمل بشكل أفضل عندما يتم جمع 3-4 عينات من الكلمات المهمة مباشرةً من المستخدم.

عرض توضيحي لـ EfficientWord-Net على Pi

EfficientWord-Net.mp4

الوصول إلى ملف التدريب

ملف التدريب للوصول إلى ملف التدريب.

مجموعات البيانات

وهنا الروابط:

مجموعة البيانات 1
مجموعة البيانات 2

ورقة الوصول

ورقة بحثية للوصول إلى ورقة بحثية.

متطلبات إصدار بايثون

تعمل هذه المكتبة مع إصدارات بايثون 3.6 إلى 3.9.

تثبيت التبعيات

قبل تشغيل أمر تثبيت النقطة للمكتبة، يلزم تثبيت بعض التبعيات يدويًا:

PyAudio (يعتمد على PortAudio)
TFLite (ثنائيات TensorFlow خفيفة الوزن)
Librosa (قد لا تكون الثنائيات متاحة لأنظمة معينة)

قد يتعين على مستخدمي Mac OS M* وRaspberry Pi تجميع هذه التبعيات.

لا يمكن إدراج حزمة tflite في ملف require.txt، وبالتالي سيتم تثبيتها تلقائيًا عند تهيئة الحزمة في النظام.

حزمة librosa غير مطلوبة لحالات الاستدلال فقط. ومع ذلك، عند استدعاء generate_reference ، سيتم تثبيته تلقائيًا.

تركيب الحزمة

قم بتشغيل أمر النقطة التالي:

 pip install EfficientWord-Net

لاستيراد الحزمة:

 import eff_word_net

تجريبي

بعد تثبيت الحزم، يمكنك تشغيل البرنامج النصي التجريبي المدمج في المكتبة (تأكد من أن لديك ميكروفونًا يعمل).

الوصول إلى الوثائق من: https://ant-brain.github.io/EfficientWord-Net/

أمر تشغيل الديمو:

 python -m eff_word_net.engine

توليد كلمات Wakeword المخصصة

بالنسبة لأي كلمة مهمة جديدة، تحتاج المكتبة إلى معلومات حول الكلمة المهمة. يتم الحصول على هذه المعلومات من ملف يسمى {wakeword}_ref.json . على سبيل المثال، بالنسبة لكلمة التنبيه "alexa"، ستحتاج المكتبة إلى الملف المسمى alexa_ref.json .

يمكن إنشاء هذه الملفات بالإجراء التالي:

اجمع من 4 إلى 10 نطقًا فريدًا لكلمة تنبيه معينة. ضعها في مجلد منفصل لا يحتوي على أي شيء آخر.
وبدلاً من ذلك، استخدم الأمر التالي لإنشاء ملفات صوتية لكلمة معينة (يستخدم IBM neural TTS demo API). من فضلك لا تبالغ في استخدامه لمصلحتنا:

python -m eff_word_net.ibm_generate

وأخيرا، قم بتشغيل هذا الأمر. سيطلب منك تحديد موقع مجلد الإدخال (الذي يحتوي على الملفات الصوتية) ومجلد الإخراج (حيث سيتم تخزين ملف _ref.json):

 python -m eff_word_net.generate_reference

يجب تمرير اسم مسار كلمة Wakeword المُنشأة إلى مثيل HotwordDetector:

 HotwordDetector (
    hotword = "hello" ,
    model = Resnet_50_Arc_loss (),
    reference_file = "/full/path/name/of/hello_ref.json" ,
    threshold = 0.9 ,  # min confidence required to consider a trigger
    relaxation_time = 0.8  # default value, in seconds
)

يمكن أن يتلقى متغير النموذج مثيل Resnet_50_Arc_loss أو First_Iteration_Siamese.

يتم استخدام المعلمة Relax_time لتحديد الحد الأدنى من الوقت بين أي مشغلين. سيتم إلغاء أي مشغلات محتملة قبل وقت الاسترخاء. يعمل الكاشف على نهج النافذة المنزلقة، مما يؤدي إلى مشغلات متعددة لنطق واحد للكلمة المهمة. يمكن استخدام المعلمة Relax_time للتحكم في المشغلات المتعددة؛ في معظم الحالات، ستكون 0.8 ثانية (افتراضية) كافية.

عينة من الكلمات المهمة الجاهزة

تحتوي المكتبة على عمليات تضمين محددة مسبقًا ومتاحة لعدد قليل من كلمات التنبيه مثل Mycroft و Google و Firefox و Alexa و Mobile و Siri . مساراتها متاحة بسهولة في دليل تثبيت المكتبة.

 from eff_word_net import samples_loc

جرب أول برنامج نصي فردي للكشف عن الكلمات المهمة

 import os
from eff_word_net . streams import SimpleMicStream
from eff_word_net . engine import HotwordDetector

from eff_word_net . audio_processing import Resnet50_Arc_loss

from eff_word_net import samples_loc

base_model = Resnet50_Arc_loss ()

mycroft_hw = HotwordDetector (
    hotword = "mycroft" ,
    model = base_model ,
    reference_file = os . path . join ( samples_loc , "mycroft_ref.json" ),
    threshold = 0.7 ,
    relaxation_time = 2
)

mic_stream = SimpleMicStream (
    window_length_secs = 1.5 ,
    sliding_window_secs = 0.75 ,
)

mic_stream . start_stream ()

print ( "Say Mycroft " )
while True :
    frame = mic_stream . getFrame ()
    result = mycroft_hw . scoreFrame ( frame )
    if result == None :
        #no voice activity
        continue
    if ( result [ "match" ]):
        print ( "Wakeword uttered" , result [ "confidence" ])

الكشف عن الكلمات المهمة المتعددة من التدفقات الصوتية

توفر المكتبة طريقة حسابية سهلة لاكتشاف كلمات مهمة متعددة من تدفق معين، بدلاً من تشغيل scoreFrame() لكل كلمة تنبيه على حدة

 import os
from eff_word_net . streams import SimpleMicStream
from eff_word_net import samples_loc
print ( samples_loc )


base_model = Resnet50_Arc_loss ()

mycroft_hw = HotwordDetector (
    hotword = "mycroft" ,
    model = base_model ,
    reference_file = os . path . join ( samples_loc , "mycroft_ref.json" ),
    threshold = 0.7 ,
    relaxation_time = 2
)

alexa_hw = HotwordDetector (
        hotword = "alexa" ,
        model = base_model ,
        reference_file = os . path . join ( samples_loc , "alexa_ref.json" ),
        threshold = 0.7 ,
        relaxation_time = 2 ,
        #verbose=True
)


computer_hw = HotwordDetector (
    hotword = "computer" ,
    model = base_model ,
    reference_file = os . path . join ( samples_loc , "computer_ref.json" ),
    threshold = 0.7 ,
    relaxation_time = 2 ,
    #verbose=True
)

multi_hotword_detector = MultiHotwordDetector (
    [ mycroft_hw , alexa_hw , computer_hw ],
    model = base_model ,
    continuous = True ,
)

mic_stream = SimpleMicStream ( window_length_secs = 1.5 , sliding_window_secs = 0.75 )
mic_stream . start_stream ()

print ( "Say " , " / " . join ([ x . hotword for x in multi_hotword_detector . detector_collection ]))

while True :
    frame = mic_stream . getFrame ()
    result = multi_hotword_detector . findBestMatch ( frame )
    if ( None not in result ):
        print ( result [ 0 ], f",Confidence { result [ 1 ]:0.4f } " )

الوصول إلى وثائق المكتبة من هنا: https://ant-brain.github.io/EfficientWord-Net/

إليك النسخة المصححة من الملف README.md مع القواعد النحوية والتنسيق المحسنين:

تغيير الملاحظات من 0.2.2 إلى v1.0.1

إضافة نموذج جديد: Resnet_50_Arc_loss مع تحسينات هائلة!

تدريب نموذج جديد من الصفر باستخدام مجموعة بيانات مقطرة معدلة من MLCommons.
تستخدم وظيفة خسارة القوس بدلاً من وظيفة الخسارة الثلاثية.
يتم تخزين النموذج الناتج كـ resnet_50_arclos.
يُظهر النموذج الأحدث مرونة أفضل بكثير تجاه ضوضاء الخلفية ويتطلب عددًا أقل من العينات للحصول على دقة جيدة.
تغييرات طفيفة في تدفق واجهة برمجة التطبيقات (API) لتسهيل إضافة الطرز الأحدث بسهولة.
يمكن للطراز الأحدث التعامل مع نافذة بطول ثابت يبلغ 1.5 ثانية.
لا يزال من الممكن الوصول إلى النموذج القديم من خلال first_iteration_siamese.

تغيير الملاحظات من v0.1.1 إلى 0.2.2

تغييرات كبيرة لاستبدال المنطق المعقد للتعامل مع المشغلات المتعددة لكل كلام بمنطق أبسط وواجهة برمجة تطبيقات أكثر وضوحًا للمبرمجين.
يقدم تغييرات جذرية.
تنفيذ C++ للنموذج الحالي موجود هنا.

القيود في النموذج الحالي

يتم التدريب على كلمات مفردة، وبالتالي قد يؤدي إلى سلوك غريب عند استخدام عبارات مثل "Hey xxx".
نافذة معالجة الصوت تقتصر على ثانية واحدة. ومن ثم، فإنه لن يعمل بشكل فعال مع الكلمات المهمة الأطول.

التعليمات

أداء الكلمة المهمة سيء : إذا كنت تواجه مثل هذه المشكلات، فلا تتردد في طرحها في المناقشات.
هل يمكن تشغيله على FPGAs مثل Arduino؟ : لا، نموذج Resnet_50_Arcloss الجديد ثقيل جدًا بحيث لا يمكن تشغيله على Arduino (حجمه 88 ميجابايت تقريبًا). سنضيف قريبًا دعمًا للإصدارات المعدلة من النموذج حتى يصبح خفيفًا بما يكفي للتشغيل على الأجهزة الصغيرة. في الوقت الحالي، ينبغي أن يكون قادرًا على العمل على أجهزة تشبه Raspberry Pi.

مساهمة

إذا كانت لديك أفكار لتحسين المشروع، فلا تتردد في مراسلتنا في المناقشات.
يمكن للرسم البياني logmelcalc.tflite الحالي تحويل إطار صوتي واحد فقط إلى Log Mel Spectrogram في المرة الواحدة. سيكون من المفيد جدًا أن يساعدنا معلمو TensorFlow في هذا الأمر.

المهام

إضافة معالج الملفات الصوتية في التدفقات. العلاقات العامة هي موضع ترحيب.
قم بإزالة متطلبات librosa لتشجيع إنشاء ملفات مرجعية مباشرة على الأجهزة المتطورة.
أضف المزيد من الوثائق التفصيلية التي تشرح مفهوم النافذة المنزلقة.
إضافة دعم الضبط الدقيق للنموذج.
أضف دعمًا للتقليم المتناثر والدقيق حيث يمكن استخدام النماذج الناتجة للضبط الدقيق (نعمل بالفعل على هذا).

ادعمنا

أداء كاشف الكلمات المهمة الخاص بنا أقل بشكل ملحوظ مقارنةً بـ Porcupine. لقد فكرنا في تصميمات NN أفضل للمحرك ونأمل أن نتفوق على Porcupine. لقد كان هذا هو مشروعنا الجامعي، لذا فإن دعمكم وتشجيعكم سيحفزنا على تطوير المحرك بشكل أكبر. إذا كنت تحب هذا المشروع، أوصي به لزملائك، أعطنا ؟ على جيثب، والتصفيق؟ على المتوسط.

تحديث: شجعنا نجومك على إنشاء نموذج جديد أفضل بكثير. دعونا نجعل هذا المجتمع ينمو!