يعد هذا المستودع بمثابة تطبيق لنقل التعلم من التحقق من السماعة إلى تركيب تحويل النص إلى كلام متعدد السماعات (SV2TTS) باستخدام مشفر صوتي يعمل في الوقت الفعلي. وكانت هذه أطروحة الماجستير الخاصة بي.
SV2TTS هو إطار عمل للتعلم العميق يتكون من ثلاث مراحل. في المرحلة الأولى، يقوم المرء بإنشاء تمثيل رقمي للصوت من بضع ثوان من الصوت. في المرحلتين الثانية والثالثة، يتم استخدام هذا التمثيل كمرجع لتوليد الكلام نظرا لنص عشوائي.
فيديو توضيحي (انقر فوق الصورة):
عنوان URL | تعيين | عنوان | مصدر التنفيذ |
---|---|---|---|
1806.04558 | SV2TTS | نقل التعلم من التحقق من المتحدث إلى تركيب تحويل النص إلى كلام متعدد السماعات | هذا الريبو |
1802.08435 | WaveRNN (مشفر صوتي) | كفاءة التوليف الصوتي العصبي | فاتكورد / WaveRNN |
1703.10135 | تاكوترون (المركب) | تاكوترون: نحو تركيب الكلام من طرف إلى طرف | فاتكورد / WaveRNN |
1710.10467 | GE2E (التشفير) | الخسارة الشاملة الشاملة للتحقق من المتحدث | هذا الريبو |
مثل كل شيء آخر في التعلم العميق، أصبح هذا الريبو قديمًا بسرعة. ستمنحك العديد من تطبيقات SaaS (التي تدفع غالبًا) جودة صوت أفضل من تلك التي يوفرها هذا المستودع. إذا كنت ترغب في حل مفتوح المصدر بجودة صوت عالية:
venv
، لكن هذا اختياري.pip install -r requirements.txt
يتم الآن تنزيل النماذج المُدربة مسبقًا تلقائيًا. إذا لم ينجح هذا بالنسبة لك، فيمكنك تنزيلها يدويًا هنا.
قبل تنزيل أي مجموعة بيانات، يمكنك البدء باختبار التكوين الخاص بك باستخدام:
python demo_cli.py
إذا نجحت جميع الاختبارات، فأنت على ما يرام.
للعب باستخدام صندوق الأدوات وحده، أوصي فقط بتنزيل LibriSpeech/train-clean-100
. قم باستخراج المحتويات كـ
حيث يكون
دليلاً من اختيارك. مجموعات البيانات الأخرى مدعومة في صندوق الأدوات، انظر هنا. أنت حر في عدم تنزيل أي مجموعة بيانات، ولكن بعد ذلك ستحتاج إلى بياناتك الخاصة كملفات صوتية أو سيتعين عليك تسجيلها باستخدام صندوق الأدوات.
يمكنك بعد ذلك تجربة مربع الأدوات:
python demo_toolbox.py -d
أو
python demo_toolbox.py
اعتمادًا على ما إذا كنت قد قمت بتنزيل أي مجموعات بيانات. إذا كنت تقوم بتشغيل خادم X أو إذا كان لديك الخطأ Aborted (core dumped)
، فراجع هذه المشكلة.