تمت ترقية نموذج توليد الكلام الخاص بمختبر Alibaba Tongyi CosyVoice إلى الإصدار 2.0

الكاتب：Eve Cole وقت التحديث：2024-12-19 08:32:01

أطلق فريق الكلام في Alibaba Tongyi Lab CosyVoice 2.0، وقد حقق هذا النموذج الضخم لتوليد الكلام مفتوح المصدر طفرة كبيرة في تكنولوجيا تركيب الكلام. بالمقارنة مع إصدار الجيل السابق، قام CosyVoice 2.0 بتحسين الدقة والاستقرار والطبيعية بشكل كبير، وحقق تركيب الكلام المتدفق ثنائي الاتجاه، وقلل بشكل كبير من تأخير التوليف. لا تنعكس هذه الترقية على المستوى التقني فحسب، بل تحقق أيضًا قفزة نوعية في تجربة المستخدم، مما يوفر للمستخدمين خدمات تركيب الكلام الأكثر ثراءً والأكثر ملاءمة.

أعلن فريق الكلام في Alibaba Tongyi Lab أنه تمت ترقية نموذج توليد الكلام الكبير مفتوح المصدر CosyVoice إلى الإصدار 2.0. تمثل هذه الترقية تحسنًا كبيرًا في الدقة والاستقرار والتجربة الطبيعية لتكنولوجيا توليد الكلام. يعتمد CosyVoice2.0 تقنية توليد الكلام الكبيرة التي تدمج النمذجة دون الاتصال بالإنترنت والبث المباشر لتحقيق تركيب الكلام المتدفق ثنائي الاتجاه، ويمكن أن يصل تأخير تركيب الحزمة الأولى إلى 150 مللي ثانية، مما يحسن بشكل كبير سرعة استجابة تركيب الكلام.

微信截图_20241216105354.png

من حيث دقة النطق، حقق CosyVoice2.0 انخفاضًا في معدل الخطأ بنسبة 30% إلى 50% مقارنة بالإصدار السابق، وقد حقق أقل معدل خطأ في الكلمات في مجموعة الاختبار الصعبة لمجموعة اختبار Seed-TTS، خاصة في اللغة الاصطناعية الأعاصير، أداء ممتاز في الشخصيات متعددة الألحان والشخصيات النادرة. بالإضافة إلى ذلك، يحافظ الإصدار 2.0 على اتساق الصوت في توليد الكلام بدون عينة وتوليف الكلام عبر اللغات، وعلى وجه الخصوص، تم تحسين القدرة على تركيب الكلام عبر اللغات بشكل ملحوظ مقارنة بالإصدار 1.0.

كما قام CosyVoice2.0 بتحسين الإيقاع وجودة الصوت والمطابقة العاطفية للصوت المركب، وزادت درجة تقييم MOS من 5.4 إلى 5.53، وهي قريبة من درجة نموذج تركيب الكلام التجاري الكبير. وفي الوقت نفسه، يدعم الإصدار 2.0 المزيد من التحكم الدقيق في المشاعر والتحكم في اللهجة واللهجة، مما يوفر للمستخدمين خيارات لغوية أكثر ثراءً، بما في ذلك اللهجات الرئيسية مثل الكانتونية، ولهجة سيتشوان، ولهجة تشنغتشو، ولهجة تيانجين، ولهجة تشانغشا، بالإضافة إلى الدور. - أداء وظائف مثل تقليد الروبوتات وأسلوب الكلام الخاص بـ Peppa Pig وما إلى ذلك.

لا تعمل ترقية CosyVoice2.0 على تحسين تقنية وخبرة تركيب الكلام فحسب، بل تعمل أيضًا على تعزيز تطوير مجتمع المصادر المفتوحة وتشجيع المزيد من المطورين على المشاركة في ابتكار وتطبيق تكنولوجيا معالجة الكلام.

مستودع GitHub: CosyVoice (https://github.com/FunAudioLLM/CosyVoice) تحقق من أحدث إصدار من CosyVoice2

تجربة العرض التوضيحي عبر الإنترنت: https://www.modelscope.cn/studios/iic/CosyVoice2-0.5B

كود المصدر المفتوح: https://github.com/FunAudioLLM/CosyVoice

نموذج مفتوح المصدر: https://www.modelscope.cn/models/iic/CosyVoice2-0.5B

سيعمل المصدر المفتوح لـ CosyVoice 2.0 على تعزيز تعميم وتطوير تكنولوجيا تركيب الكلام، وتزويد المطورين والباحثين بأدوات وموارد قوية، والتطلع إلى ظهور المزيد من التطبيقات المبتكرة. مرحبا بكم في زيارة الرابط المقدم للتجربة والتنزيل.