فلاش! تطلق ElevenLabs نموذج الحوار الصوتي Flash: تأخير 75 مللي ثانية فقط يدعم 32 لغة

الكاتب：Eve Cole وقت التحديث：2024-12-24 17:48:01

أصدرت ElevenLabs نموذجًا جديدًا لتركيب الكلام، Flash، والذي يعد حاليًا أسرع حل لتحويل النص إلى كلام (TTS) مع زمن استجابة منخفض للغاية - 75 مللي ثانية فقط. يعد هذا التطور المذهل مناسبًا بشكل خاص لتطبيقات الذكاء الاصطناعي للمحادثة التي تتطلب التفاعل في الوقت الفعلي، مما يحسن بشكل كبير من سلاسة وطبيعية التفاعل بين الإنسان والحاسوب. يتوفر نموذج Flash في نسختين: Flash v2 (يدعم اللغة الإنجليزية) وFlash v2.5 (يدعم 32 لغة). ويمكن للمستخدمين تجربته مباشرة من خلال منصة الذكاء الاصطناعي للمحادثة وواجهة برمجة التطبيقات (API). على الرغم من أنه أدنى قليلاً من طراز Turbo من حيث جودة الصوت والتعبير العاطفي، إلا أن Flash كان متقدمًا بشكل واضح من حيث السرعة وجاء في المقدمة في الاختبار الأعمى.

ينقسم طراز Flash إلى نسختين، Flash v2 يدعم اللغة الإنجليزية فقط، وFlash v2.5 يدعم 32 لغة. عند استخدام كلا النموذجين، سينفق المستخدمون نقطة واحدة مقابل كل حرفين يقومون بإنشائهما. على الرغم من أن طراز Flash أدنى قليلاً من طراز Turbo من حيث جودة الصوت والعمق العاطفي، إلا أن أداءه المنخفض الكمون سمح له بالقفز على بقية فئته في الاختبارات العمياء، مما يجعله الخيار الأسرع في فئته.

قال الفريق الفني لشركة ElevenLabs إن إطلاق نماذج Flash سيعزز بشكل كبير سلاسة وطبيعية التفاعل بين الإنسان والحاسوب. يمكن للمطورين الاتصال مباشرة بمعرفات النماذج "eleven_flash_v2" و"eleven_flash_v2_5" من خلال واجهة برمجة التطبيقات (API) ويمكن العثور على المواد المرجعية المحددة لواجهة برمجة التطبيقات (API) على موقع ElevenLabs الرسمي. ومن خلال هذا الابتكار، تأمل ElevenLabs في فتح المزيد من سيناريوهات الحوار والتفاعل ذات زمن الاستجابة المنخفض.

توفر ElevenLabs أيضًا مجموعة متنوعة من المنتجات والحلول، بما في ذلك المساعدين الصوتيين المخصصين وأدوات الإنتاج الصوتي واستوديوهات الدبلجة، المصممة لمساعدة المستخدمين والمطورين في مختلف المجالات على تحقيق إنشاء صوت عالي الجودة بتقنية الذكاء الاصطناعي. بالإضافة إلى ذلك، تقوم ElevenLabs أيضًا بإجراء البحث والتطوير بنشاط وتواصل تحسين المستوى الفني لمنتجاتها لتلبية الاحتياجات المتزايدة للمستخدمين.

أبرز النقاط:

يبلغ زمن الوصول لنموذج Flash لتوليد الكلام 75 مللي ثانية فقط، وهو مناسب للمساعدين الصوتيين للمحادثة ذوي زمن الاستجابة المنخفض.

يدعم Flash v2.5 32 لغة، وكل حرفين ينشئهما المستخدم يكلف نقطة واحدة.

في الاختبارات العمياء، تفوق نموذج Flash على المنتجات المماثلة الأخرى، ليصبح أسرع حل لتحويل النص إلى كلام.

بشكل عام، يوفر نموذج Flash من ElevenLabs إمكانيات جديدة لتطبيقات الذكاء الاصطناعي للمحادثة بفضل زمن الاستجابة المنخفض للغاية ودعمه متعدد اللغات، ويشير أيضًا إلى أن التفاعل بين الإنسان والحاسوب سيكون أكثر سلاسة وطبيعية في المستقبل. إن ميزته في السرعة تجعله أحد حلول تحويل النص إلى كلام الرائدة في السوق ويستحق اهتمام المطورين والمستخدمين.