يمتلك مختبر Alibaba Damo Academy Tongyi تقنية مفتوحة المصدر لمعالجة الكلام تسمى ClearerVoice-Studio، والتي تهدف إلى تحسين جودة الكلام ووضوحه وحل تحديات وضوح الكلام الناجمة عن الضوضاء البيئية والصدى والتقاط المعدات. تدمج هذه التقنية وظائف مثل تحسين الكلام، وفصل الكلام، واستخراج مكبرات الصوت والفيديو، وتعتمد خوارزميات التعلم العميق المتقدمة للمجال المعقد لتحسين أداء تقليل ضوضاء الكلام وفصلها بشكل كبير، والحفاظ على وضوح الكلام إلى أقصى حد، وعلى في نفس الوقت يتم تقليل تشويه الصوت. تشمل نماذجها الأساسية نموذج FRCRN الذي فاز بالمركز الثاني بشكل عام في تحدي IEEE/INTER Speech DNS Challenge لعام 2022، وسلسلة نماذج MossFormer التي حققت أداءً جيدًا في مهام فصل الكلام، مما يوفر للمطورين والباحثين أدوات قوية لمعالجة الكلام.
أعلن مختبر Tongyi التابع لأكاديمية Alibaba Damo مؤخرًا أنه سيفتح المصدر لتقنية معالجة الكلام التي تسمى ClearerVoice-Studio، والتي تهدف إلى تحسين جودة الكلام ووضوحه. مع التطبيق الواسع النطاق لتكنولوجيا الصوت، اجتذبت جودة الصوت المزيد والمزيد من الاهتمام، خاصة في ظل وجود الضوضاء البيئية والصدى والتقاط المعدات، أصبح الطلب على تكنولوجيا معالجة الصوت ملحًا بشكل متزايد.
يقوم ClearerVoice-Studio بدمج وظائف مثل تحسين الكلام وفصل الكلام واستخراج مكبرات الصوت والفيديو من خلال دمج خوارزميات التعلم العميق للمجال المعقد، وهو يعمل على تحسين أداء تقليل ضوضاء الكلام وفصله بشكل كبير. تعمل هذه التقنية على التخلص من ضوضاء الخلفية إلى أقصى حد، مما يحافظ على وضوح الكلام مع تقليل تشويه الكلام إلى الحد الأدنى.
تشتمل النماذج والخوارزميات الأساسية لـ ClearerVoice-Studio على نموذج FRCRN الذي فاز بالمركز الثاني بشكل عام في تحدي IEEE/INTER Speech DNS Challenge لعام 2022، وسلسلة نماذج MossFormer التي حققت أداءً جيدًا في مهام فصل الكلام. يعمل نموذج تحسين الكلام 48 كيلو هرتز المعتمد على MossFormer2 على تقليل تشويه الكلام بشكل كبير مع منع الضوضاء بشكل فعال.
يأمل Alibaba Tongyi Lab في تزويد المطورين والباحثين والمؤسسات بأدوات معالجة صوتية قوية من خلال منصة ClearerVoice-Studio للمساعدة في تنفيذ التطبيقات المبتكرة. يمكن للمستخدمين تجربة العرض التوضيحي عبر الإنترنت، وإعداد ملف كلام يحتوي على ضوضاء، وتحميله على صفحة معينة، ومعالجته بنقرة واحدة والاستماع عبر الإنترنت أو تنزيل نتائج المعالجة، والحصول على الفور على جودة صوت واضحة وتأثير ممتاز لتقليل الضوضاء.
مستودع جيثب: https://github.com/modelscope/ClearerVoice-Studio
العرض التوضيحي للتجربة عبر الإنترنت: https://huggingface.co/spaces/alibababasglab/ClearVoice
يوفر ClearerVoice-Studio تجربة مريحة عبر الإنترنت ومستودع GitHub لتسهيل على المستخدمين البدء بسرعة. سيعزز المصدر المفتوح لهذه التكنولوجيا التقدم وتطبيق تكنولوجيا معالجة الكلام ويجلب الابتكار إلى المزيد من المجالات المتعلقة بالكلام. ونحن نتطلع إلى سيناريوهات تطبيقه على نطاق أوسع في المستقبل.