تقارير محرر Downcodes: أطلقت فرق البحث من جامعة شنغهاي جياو تونغ وجامعة كامبريدج ومعهد أبحاث جيلي للسيارات مؤخرًا نظامًا جديدًا لتحويل النص إلى كلام (TTS) يسمى F5-TTS. يستخدم النظام طريقة خالية من الانحدار الذاتي، مقترنة بمحول مطابقة التدفق والانتشار (DiT)، الذي يبسط بشكل فعال العملية المعقدة لنموذج تحويل النص إلى كلام التقليدي ويحقق اختراقات كبيرة في كل من جودة التوليف وسرعة الاستدلال. بالمقارنة مع نماذج تحويل النص إلى كلام (TTS) التقليدية، فإن أداء F5-TTS جيد من حيث سرعة المعالجة والمتانة، مما يوفر إمكانيات جديدة لتقنية تركيب الكلام.
في الآونة الأخيرة، أطلق فريق بحث من جامعة شنغهاي جياو تونغ وجامعة كامبريدج ومعهد جيلي لأبحاث السيارات نظامًا جديدًا لتحويل النص إلى كلام (TTS) يسمى F5-TTS. ما يميز هذا النظام هو أنه يستخدم طريقة خالية من الانحدار الذاتي تجمع بين مطابقة التدفق ومحول الانتشار (DiT)، مما يؤدي بنجاح إلى تبسيط الخطوات المعقدة في نموذج TTS التقليدي.
كما نعلم جميعًا، غالبًا ما تتطلب نماذج TTS التقليدية نمذجة مدة معقدة، ومحاذاة الصوت، وترميز نص متخصص، مما يزيد من تعقيد عملية التوليف. على وجه الخصوص، غالبًا ما تواجه النماذج السابقة مثل E2TTS مشكلات مثل التقارب البطيء والمحاذاة غير الدقيقة للنص والكلام، مما يجعل من الصعب تطبيقها بكفاءة في سيناريوهات العالم الحقيقي. إن ظهور F5-TTS هو على وجه التحديد حل هذه التحديات.
مبدأ عمل F5-TTS بسيط، أولاً، تتم معالجة نص الإدخال من خلال بنية ConvNeXt لتسهيل مواءمته مع الكلام. يتم بعد ذلك إدخال تسلسل الأحرف المبطن في النموذج مع نسخة صاخبة من كلام الإدخال.
يعتمد تدريب النظام على محول الانتشار (DiT)، الذي يرسم بشكل فعال توزيعًا أوليًا بسيطًا لتوزيع البيانات من خلال مطابقة التدفق. بالإضافة إلى ذلك، يقدم F5-TTS أيضًا بشكل مبتكر إستراتيجية Sway Sampling أثناء الاستدلال، والتي يمكنها إعطاء الأولوية لخطوات التدفق المبكرة في مرحلة الاستدلال، وبالتالي تحسين المحاذاة بين الكلام الذي تم إنشاؤه والنص المُدخل.
وفقًا لنتائج البحث، يتفوق F5-TTS على العديد من أنظمة TTS الحالية في كل من جودة التوليف وسرعة الاستدلال. في مجموعة بيانات LibriSpeech-PC، حقق النموذج معدل خطأ في الكلمات (WER) قدره 2.42 وعامل في الوقت الحقيقي (RTF) قدره 0.15 في وقت الاستدلال، وهو ما كان أفضل بكثير من نموذج الانتشار السابق E2TTS، الذي كان أداؤه أفضل في المعالجة السرعة وهناك عيوب في المتانة.
وفي الوقت نفسه، تعمل إستراتيجية Sway Sampling على تحسين طبيعة الكلام الذي تم إنشاؤه وفهمه بشكل كبير، مما يسمح للنموذج بتحقيق توليد سلس ومعبر دون تدريب.
يعمل F5-TTS على تحسين قوة المحاذاة وجودة التوليف من خلال تبسيط العملية وإلغاء الحاجة إلى توقع المدة ومحاذاة الصوت وترميز النص الصريح. بالإضافة إلى ذلك، أكد الباحثون أيضًا على الاعتبارات الأخلاقية واقترحوا الحاجة إلى إنشاء أنظمة للعلامات المائية والكشف لمنع إساءة استخدام النموذج.
مدخل المشروع: https://github.com/SWivid/F5-TTS
تسليط الضوء على:
F5-TTS هو نوع جديد من نظام تحويل النص إلى كلام ذاتي الانحدار الذي يبسط تعقيد نموذج TTS التقليدي.
يستخدم النظام بنية ConvNeXt وDiT لتحسين محاذاة النص والكلام وتحسين جودة التوليف بشكل ملحوظ.
وشدد الباحثون على ضرورة الاهتمام بالقضايا الأخلاقية واقترحوا إدخال العلامات المائية وآليات الكشف لمنع إساءة الاستخدام المحتملة.
لقد أدى ظهور نظام F5-TTS إلى تحقيق اختراقات جديدة في تكنولوجيا تحويل النص إلى كلام، ومن المتوقع أن يتم استخدام أدائه الفعال وعملياته المبسطة على نطاق واسع في العديد من المجالات. ومع ذلك، تتطلب القضايا الأخلاقية أيضًا الاهتمام، ويجب تخصيص الأبحاث اللاحقة لإنشاء آلية تنظيمية سليمة لضمان التطوير المسؤول للتكنولوجيا.