يطلق تطبيق Doubao وضعًا صوتيًا جديدًا، مما يتيح الغناء ولعب الأدوار قبل GPT-4o - مقالة تعمل بالذكاء الاصطناعي

الكاتب：Eve Cole وقت التحديث：2025-01-28 14:00:03

أصدر تطبيق Doubao أحدث نموذج صوتي كبير "من طرف إلى طرف" في 20 يناير 2025، مما أدى إلى تحديث كبير لوظيفة الاتصال الصوتي في الوقت الفعلي. يشير هذا التحديث إلى أن Doubao قد حققت تقدمًا كبيرًا في مجال التفاعل الصوتي، حيث لم تعد تعتمد على الحلول المتسلسلة التقليدية ASR وLLM وTTS، ولكنها تدمج التعرف على الكلام وفهمه وتوليده في نفس النموذج، مما يحقق تجربة أكثر سلاسة وأكثر سلاسة. تجربة التفاعل الصوتي الذكي. ينصب تركيز هذا التحديث على تحسين تجسيم التفاعل الصوتي، مما يسمح للذكاء الاصطناعي بفهم المشاعر البشرية والاستجابة لها بشكل أفضل.

في 20 يناير 2025، أصدر تطبيق Doubao رسميًا أحدث نموذج صوتي "من طرف إلى طرف" وأجرى تحديثات مهمة على وظيفة الاتصال الصوتي في الوقت الفعلي. يمثل هذا التقدم قفزة أخرى للأمام لـ Doubao في مجال التفاعل الصوتي، متجاوزًا الحلول المتتالية السابقة مثل ASR (التعرف التلقائي على الكلام)، وLLM (نموذج اللغة الكبيرة) وTTS (Tensheng Audio)، الذي يدمج التعرف على الكلام والفهم والتوليد في نفس النموذج.

بعد الاختبار بواسطة "Smart Emergence"، فإن أهم ما يميز الإصدار الجديد من Doubao هو أنه يتمتع بقدرة تعبير تشبه الإنسان وإخراج عاطفي، مما يحسن مستوى الطلاقة والذكاء في الحوار. على وجه الخصوص، يسمح وضعا "Soul Singer" و"Various Master" لـ Doubao ليس بالغناء فحسب، بل أيضًا بأداء لعب الأدوار الغني، ليصبح المفضل الجديد لتفاعل المستخدم. على سبيل المثال، عندما طلب المستخدمون من Doubao تقليد صوت المشاهير Yu Shuxin، لم ينجح Doubao في تكرار نغمة الشخصية فحسب، بل عبر أيضًا عن شخصيته الفريدة بشكل هزلي.

والأكثر من ذلك الجدير بالذكر هو أن Doubao قادر على ارتجال الأغاني في المحادثات الطبيعية دون الحاجة إلى تعليمات معقدة أو مطالبات احترافية. يمكن للمستخدمين أن يطلبوا من Doubao الغناء حسب الرغبة، ويمكنهم أيضًا تحديد موضوع الكلمات. على الرغم من أن أداء دوباو ارتكب أحيانًا أخطاء صغيرة، إلا أن سرعة رد فعله وقدرته الارتجالية كانت مذهلة، مما يدل على قدرته القوية على التجسيم.

بالإضافة إلى ذلك، فإن وضعي الشخصية المُضافين حديثًا لـ Doubao، وهما "الحقيبة الصغيرة" و"السيد المبالغ فيه"، يجلبان أيضًا النضارة للمستخدمين. تسمح أنماط الشخصية هذه لدوباو بالتعبير عن مشاعر وأساليب مختلفة في مواقف مختلفة، وبالتالي تعزيز متعة وواقعية التفاعلات.

اليوم، مع التطور المتزايد لتقنية التفاعل الصوتي، لا يعمل هذا التحديث لـ Doubao على توسيع سيناريوهات تطبيق الذكاء الاصطناعي ليشمل الرفقة العاطفية والاستشارة النفسية وغيرها من المجالات فحسب، بل يجعل أيضًا قدرات التواصل العاطفي للذكاء الاصطناعي أقرب إلى البشر. سيمكن هذا التحول بلا شك Doubao من احتلال مكان في السوق شديدة التنافسية وقيادة التطوير المستقبلي لتفاعل الذكاء الاصطناعي.

لا يحقق هذا التحديث لتطبيق Doubao طفرة في التكنولوجيا فحسب، بل الأهم من ذلك أنه يحقق نقلة نوعية في تجربة المستخدم، مما يوفر اتجاهًا جديدًا للتطوير المستقبلي لتفاعل الذكاء الاصطناعي، ويستحق التطلع إلى المزيد من الابتكارات في متابعته. أعلى.