حققت شركة Geely Automobile تقدمًا كبيرًا في مجال تركيب الكلام. وقد تجاوز طراز HAM-TTS الكبير "Xingrui" الذي تم تطويره بشكل مستقل معيار الصناعة VALL-E في الأداء، مما جذب انتباهًا واسع النطاق. سيشرح محرر Downcodes بالتفصيل المزايا الأساسية والتأثير المستقبلي لهذه التقنية.
حققت شركة Geely Automobile مؤخرًا تقدمًا كبيرًا في مجال تركيب الكلام، وقد تجاوز أداء نموذجها الكبير HAM-TTS الذي تم تطويره بشكل مستقل معيار الصناعة VALL-E، مما جذب اهتمامًا واسع النطاق في الصناعة. حقق نموذج الذكاء الاصطناعي الكبير هذا المسمى Xingrui تحسينات كبيرة في المؤشرات الرئيسية مثل دقة النطق والطبيعية وتشابه المتحدث.
يستخدم نموذج HAM-TTS تقنية النمذجة الصوتية الهرمية لتحويل النص إلى كلام القائمة على الرمز المميز، مما يحسن بشكل كبير تجربة تفاعل المستخدم في قمرة القيادة الذكية. في ظل نفس ظروف المعلمة البالغة 400 مليون، انخفض معدل خطأ الأحرف في نموذج HAM-TTS بنسبة 1.5% مقارنةً بـ VALL-E؛ وفي النموذج الكامل الذي يحتوي على 800 مليون معلمة، انخفض معدل خطأ الأحرف بنسبة 2.3%. من حيث اتساق الأسلوب واتساق الملعب والنتيجة الإجمالية، حقق نموذج HAM-TTS تحسنًا ملحوظًا بنسبة 10%.
لا تنعكس مزايا نموذج Xingrui في مؤشرات الأداء فحسب، بل إن تطبيقه العملي مثير للإعجاب أيضًا. يمكنه الحفاظ على استقرار صوت المتحدث في مجموعة متنوعة من السيناريوهات مثل ربط الصورة الرمزية، والملاحة الصوتية، وبث الأخبار، وضبط النغمة والتنغيم والتوقف المؤقت والعواطف بذكاء وفقًا للموقف. والأمر الجدير بالذكر هو أن هذا النموذج يمكنه التبديل بسلاسة بين اللغات المختلفة، بما في ذلك اللهجات واللغات الأجنبية، ويمكنه إكمال إعادة إنتاج الصوت خلال 3 ثوانٍ فقط من إدخال العينة، وهو أفضل بكثير من أكثر من 10 ثوانٍ المطلوبة عادةً في الصناعة.
قام فريق جيلي بتحسين أداء النموذج بشكل مبتكر من خلال تقديم النمذجة الصوتية ذات الطبقات. لقد قاموا بحل مشكلة النطق غير الدقيق وقدموا تنبؤات للتسلسل المتغير للمساحة الكامنة ومحاذاة النص لجعل مطابقة النص والأصوات أكثر دقة، مما يجعل الكلام المركب أكثر طبيعية وسلاسة.
لا يوضح هذا الاختراق قوة جيلي في مجال البحث والتطوير في مجال التكنولوجيا الذكية فحسب، بل يعكس أيضًا طموحها في مجال الذكاء الاصطناعي. تم توسيع نظام النماذج الكبيرة Xingrui AI من جيلي إلى اتجاهات متعددة مثل النماذج الكبيرة متعددة الوسائط والنماذج الكبيرة اللغوية، مما يضع الأساس لتكنولوجيا السيارات الذكية. وفي الوقت نفسه، ارتفع إجمالي قوة الحوسبة السحابية لشركة جيلي أيضًا من 81 بيتافلوب/الثانية في العام الماضي إلى 102 بيتافلوب/الثانية، مما يدل على استثمارها المستمر في التكنولوجيا.
مع النجاح الأولي للكهرباء، قدم اختراق جيلي في مجال الذكاء أفكارًا وإمكانيات جديدة للتطوير المستقبلي لصناعة السيارات. وهذا لا يعيد تعريف فهمنا لمصنعي السيارات التقليديين فحسب، بل يشير أيضًا إلى أن الذكاء سيصبح مجالًا رئيسيًا للمنافسة في صناعة السيارات المستقبلية.
عنوان الورقة: https://arxiv.org/pdf/2403.05989
يمثل نجاح "شينغ روي" من جيلي صعود صناعة السيارات الصينية في مجال الذكاء الاصطناعي، وستؤثر اختراقاتها التكنولوجية بشكل عميق على اتجاه التطوير الذكي للسيارات المستقبلية. نتطلع إلى المزيد من الابتكارات من جيلي في مجال الذكاء الاصطناعي!