ASRT هو نظام صيني للتعرف على الكلام يعتمد على التعلم العميق. إذا أعجبك، يرجى النقر على "نجمة" ~
اللغة التمهيدية | النسخة الصينية |
الصفحة الرئيسية لمشروع ASRT | . تنزيل الإصدار التجريبي | . عرض مستند Wiki الخاص بهذا المشروع |
إذا واجهتك أي مشاكل أثناء تشغيل البرنامج أو استخدامه، يمكنك طرح الموضوع في الوقت المناسب وسوف أقوم بالرد في أقرب وقت ممكن. يتواصل مؤلف هذا المشروع في مجموعة QQ: 894112051. للانضمام إلى مجموعة WeChat، يرجى إضافة معرف AI Lemon WeChat: ailemon-me ، وملاحظة "ASRT Speech Recognition"
يرجى قراءة وثائق المشروع والأسئلة الشائعة والمشكلات بعناية قبل طرح الأسئلة لتجنب الأسئلة المتكررة.
إذا كان هناك أي خلل عند تشغيل البرنامج، فيرجى إرسال لقطة شاشة كاملة عند طرح الأسئلة، والإشارة إلى بنية وحدة المعالجة المركزية المستخدمة ونموذج وحدة معالجة الرسومات ونظام التشغيل وإصدارات Python و TensorFlow و CUDA، وما إذا كان قد تم تعديل أي كود أو مجموعات بيانات تمت إضافتها أو حذفها، الخ.
يستخدم هذا المشروع TensorFlow.keras استنادًا إلى شبكة عصبية تلافيفية عميقة وشبكة عصبية ذات ذاكرة طويلة المدى قصيرة المدى وآلية انتباه وتنفيذ CTC.
خذ العملية تحت نظام Linux كمثال:
أولاً، قم باستنساخ هذا المشروع على جهاز الكمبيوتر الخاص بك من خلال Git، ثم قم بتنزيل مجموعات البيانات المطلوبة للتدريب في هذا المشروع، راجع رابط التنزيل في نهاية المستند.
$ git clone https://github.com/nl8590687/ASRT_SpeechRecognition.git
أو يمكنك استخدام زر "Fork" لعمل نسخة من هذا المشروع، ثم استنساخه محليًا باستخدام مفتاح SSH الخاص بك.
بعد استنساخ المستودع من خلال git، أدخل الدليل الجذر للمشروع وأنشئ دليلًا فرعيًا لتخزين البيانات، مثل /data/speech_data
(يمكنك استخدام رابط إلكتروني بدلاً من ذلك)، ثم قم باستخراج مجموعة البيانات التي تم تنزيلها مباشرةً فيه
لاحظ أنه في الإصدار الحالي، تتم إضافة ست مجموعات بيانات بما في ذلك Thchs30، وST-CMDS، وPrimewords، وaishell-1، وaidatatang200، وMagicData بشكل افتراضي في ملف التكوين. يرجى حذفها بنفسك إذا لم تكن بحاجة إليها. إذا كنت تريد استخدام مجموعات بيانات أخرى، فستحتاج إلى إضافة تكوين البيانات بنفسك وتنظيم البيانات مسبقًا باستخدام التنسيق القياسي الذي يدعمه ASRT.
$ cd ASRT_SpeechRecognition
$ mkdir /data/speech_data
$ tar zxf <数据集压缩文件名> -C /data/speech_data/
قم بتنزيل ملف تسمية pinyin لمجموعة البيانات الافتراضية:
$ python download_default_datalist.py
الموديلات المتوفرة حاليًا هي 24 و25 و251 و251 مليار
قبل تشغيل هذا المشروع، يرجى تثبيت المكتبات الضرورية المعتمدة على إصدار Python3
لبدء التدريب على هذا المشروع، يرجى تنفيذ ما يلي:
$ python3 train_speech_model.py
لبدء اختبار هذا المشروع، يرجى تنفيذ ما يلي:
$ python3 evaluate_speech_model.py
قبل الاختبار، يرجى التأكد من وجود مسار ملف النموذج المملوء بالكود.
توقع نص التعرف على الكلام لملف صوتي واحد:
$ python3 predict_speech_file.py
لبدء تشغيل خادم API لبروتوكول ASRT HTTP، يرجى تنفيذ ما يلي:
$ python3 asrserver_http.py
اختبار محليًا ما إذا كان استدعاء خدمة API لبروتوكول HTTP ناجحًا:
$ python3 client_http.py
لبدء تشغيل خادم API لبروتوكول ASRT GRPC، يرجى تنفيذ ما يلي:
$ python3 asrserver_grpc.py
اختبر محليًا ما إذا كان استدعاء خدمة API لبروتوكول GRPC ناجحًا:
$ python3 client_grpc.py
يرجى ملاحظة أنه بعد فتح خادم API، تحتاج إلى استخدام برنامج العميل المتوافق مع مشروع ASRT للتعرف على الكلام للحصول على التفاصيل، راجع مستند Wiki لتنزيل SDK والعرض التوضيحي لعميل التعرف على الكلام ASRT.
إذا كنت ترغب في تدريب واستخدام نموذج غير 251bn، فيرجى إجراء تعديلات في الموقع المقابل لـ from speech_model.xxx import xxx
في الكود.
استخدم عامل الإرساء لنشر ASRT مباشرة:
$ docker pull ailemondocker/asrt_service:1.3.0
$ docker run --rm -it -p 20001:20001 -p 20002:20002 --name asrt-server -d ailemondocker/asrt_service:1.3.0
تقوم وحدة المعالجة المركزية فقط بتشغيل التعرف على الاستدلال دون تدريب.
دي سي إن إن + سي تي سي
من بينها، أقصى طول زمني لإدخال الصوت هو 16 ثانية، والإخراج هو تسلسل بينيين الصيني المقابل.
يتم تضمين النموذج المدرب في الحزمة المضغوطة لبرنامج خادم إصدار الإصدار. يمكن تنزيل برنامج الخادم النهائي من هنا: صفحة تنزيل ASRT.
تتضمن صفحة الإصدارات ضمن مستودع Github هذا أيضًا معلومات مقدمة لكل إصدار مختلف. تحتوي الحزمة المضغوطة الموجودة أسفل كل إصدار أيضًا على حزمة برنامج خادم الإصدار للنموذج المُدرب.
الحد الأقصى للإنتروبيا المخفية لنموذج ماركوف بناءً على الرسم البياني الاحتمالي
الإدخال هو تسلسل بينيين صيني، والإخراج هو نص الحرف الصيني المقابل.
في الوقت الحالي، يمكن للنموذج الأفضل تحقيق دقة بينيين صينية بنسبة 85% في مجموعة الاختبار.
إذا كنت لا تعرف كيفية تثبيت البيئة، فيرجى تشغيل الأمر التالي مباشرةً (شريطة أن يكون لديك GPU وتم تثبيت Python3.9 وCUDA 11.2 وcudnn 8.1):
$ pip install -r requirements.txt
يعتمد على متطلبات تكوين البيئة والأداء
للحصول على المحتوى الكامل، يرجى الاطلاع على: العديد من أحدث مجموعات بيانات الكلام الصينية المجانية والمفتوحة المصدر
مجموعة البيانات | مدة | مقاس | تحميل محلي | تحميل في الخارج |
---|---|---|---|---|
THCHS30 | 40 ساعة | 6.01 جرام | data_thchs30.tgz | data_thchs30.tgz |
ST-CMDS | 100 ساعة | 7.67 جرام | ST-CMDS-20170001_1-OS.tar.gz | ST-CMDS-20170001_1-OS.tar.gz |
آيشيل-1 | 178 ساعة | 14.51 جرام | data_aishell.tgz | data_aishell.tgz |
الكلمات الأولية | 100 ساعة | 8.44 جرام | primewords_md_2018_set1.tar.gz | primewords_md_2018_set1.tar.gz |
MagicData | 755 ساعة | 52 جرام/1.0 جرام/2.2 جرام | Train_set.tar.gz/dev_set.tar.gz/test_set.tar.gz | Train_set.tar.gz/dev_set.tar.gz/test_set.tar.gz |
ملاحظة: طريقة إلغاء ضغط مجموعة البيانات AISHELL-1
$ tar xzf data_aishell.tgz
$ cd data_aishell/wav
$ for tar in *.tar.gz; do tar xvf $tar; done
شكر خاص! شكرًا للأسلاف على مجموعة بيانات الخطاب العام
إذا تعذر فتح رابط مجموعة البيانات المقدم وتنزيله، فيرجى النقر فوق الرابط OpenSLR
يوفر ASRT إمكانية الوصول إلى SDK لمنصات ولغات برمجة مختلفة للعملاء للاتصال بوظائف التعرف على الكلام وتطويرها من خلال RPC. بالنسبة للأنظمة الأساسية الأخرى، يمكن الوصول إلى وظائف التعرف على الكلام مباشرة عن طريق استدعاء RESTful Open API العامة. يرجى الاطلاع على وثائق مشروع ASRT للتعرف على خطوات الوصول المحددة.
منصة العميل | رابط مستودع المشروع |
---|---|
Windows Client SDK والعرض التوضيحي | ASRT_SDK_WinClient |
عميل Python3 عبر الأنظمة الأساسية SDK والعرض التوضيحي | ASRT_SDK_Python3 |
عميل Golang عبر الأنظمة الأساسية SDK والعرض التوضيحي | asrt-sdk-go |
Java Client SDK والعرض التوضيحي | ASRT_SDK_Java |
يرجى مراجعة هذه المقالة للتعرف على مبادئ ASRT:
يرجى الاطلاع على البرنامج التعليمي للتدريب والنشر ASRT:
للأسئلة المتداولة حول مبادئ نماذج اللغة الإحصائية، يرجى الاطلاع على:
للأسئلة حول CTC، يرجى الاطلاع على:
لمزيد من المحتوى، يرجى زيارة مدونة المؤلف: AI Lemon Blog
أو استخدم محرك بحث موقع AI Lemon للبحث عن المعلومات ذات الصلة
GPL v3.0 © nl8590687 المؤلف: AI Lemon
دوى: 10.5281/زينودو.5808434
صفحة المساهم
@nl8590687 (مالك الريبو)