نموذج تحويل النص إلى كلام فائق السرعة Lightning: زمن وصول منخفض للغاية، 100 مللي ثانية لتوليد 10 ثوانٍ من الصوت

الكاتب：Eve Cole وقت التحديث：2024-11-29 14:41:01

علم محرر موقع Downcodes أن شركة الذكاء الاصطناعي الناشئة الأمريكية Small.ai قد أطلقت نموذجًا جديدًا لتحويل النص إلى كلام (TTS) Lightning. سرعته مذهلة: يستغرق الأمر 100 مللي ثانية فقط لإنشاء صوت يصل إلى 10 ثوانٍ! يمثل هذا قفزة كبيرة في تقنية TTS، والتي ستقلل بشكل كبير من تكلفة تطوير وتطبيق الروبوت الصوتي، وتحسين إمكانية الوصول، وتقديم أخبار جيدة للمطورين في جميع أنحاء العالم. يدعم Lightning لهجات متعددة باللغتين الإنجليزية والهندية، وسيدعم المزيد من اللغات في المستقبل، ويقدم أسعارًا تنافسية للغاية: 0.02 دولار فقط للدقيقة.

في الآونة الأخيرة، أطلقت شركة Small.ai، وهي شركة ناشئة تعمل بالذكاء الاصطناعي ومقرها في سان فرانسيسكو، كاليفورنيا، منتجها الجديد Lightning، وهو نموذج لتحويل النص إلى كلام (TTS) يمكنه توليد ما يصل إلى 10 ثوانٍ من الصوت في 100 مللي ثانية. يتيح التقدم في هذه التقنية للمطورين في جميع أنحاء العالم إنشاء تطبيقات روبوت صوتية واقعية للغاية مع زمن وصول قصير للغاية، مما يقلل من تكاليف التنفيذ ويحسن إمكانية الوصول إلى التطبيقات.

يدعم Lightning حاليًا لهجات متعددة باللغتين الإنجليزية والهندية، ويخطط الفريق لإضافة المزيد من اللغات بسرعة لتلبية طلب السوق. يبلغ سعر هذا النموذج 0.02 دولار أمريكي فقط (حوالي 1.6 روبية هندية) للدقيقة، مما يوفر لمطوري الروبوتات الصوتية حلاً فعالاً من حيث التكلفة، مع التحكم في تكلفة تشغيل التطبيق بأقل من 1 روبية هندية للدقيقة الروبوتات الصوتية مع توسيع إمكانية الوصول إلى الأسواق.

على عكس نموذج TTS التقليدي الذي يعتمد على وسائط البث ومآخذ الشبكة، مما يزيد من عبء الخادم ويعقد قابلية التوسع، يستخدم Lightning تصميم REST API بسيط لتوصيل الصوت في حوالي 100 مللي ثانية، مع تجنب المشكلات الناجمة عن ضغط الخادم المستمر. إن قوة المعالجة السريعة هذه وفعالية التكلفة تجعلها بديلاً مهمًا في صناعة الروبوتات الصوتية.

يمكن تلخيص ميزات منتج Lightning على النحو التالي:

1. السرعة والكفاءة. يولّد نموذج Lightning، المعروف باسم أسرع تحويل نص إلى كلام في العالم، 10 ثوانٍ من الصوت الواقعي للغاية في 100 مللي ثانية، مما يحقق تركيب الكلام في الوقت الفعلي لتلبية الحاجة إلى الاستجابة السريعة.

2. الاكتناز والتوافق. يتطلب هذا الطراز أقل من 1 جيجابايت من ذاكرة الفيديو، وهو صغير الحجم ويمكن تشغيله بسهولة على معظم الأجهزة الاستهلاكية والأجهزة الطرفية، مما يقلل من متطلبات الأجهزة.

3. دعم متعدد اللغات. دعم متعدد اللغات واللهجات، ويدعم حاليًا لهجات متعددة باللغتين الإنجليزية والهندية، ويخطط لإضافة المزيد من اللغات بسرعة لتلبية احتياجات المستخدمين العالميين.

4. قابلة للتخصيص بدرجة كبيرة. يستخدم ناشر النمط ناشرًا ذو نمط خاص لضبط نمط الصوت وفقًا لاحتياجات المستخدم، مما يجعل الكلام الناتج أكثر طبيعية وعاطفية.

5. سهولة التكامل. يوفر تكامل REST API واجهة REST API بسيطة، مما يسمح للمطورين بدمج نموذج Lightning بسرعة في الأنظمة الحالية، مما يلغي الحاجة إلى اتصالات WebSocket المعقدة.

6. أسعار مناسبة، تبدأ من 0.04 دولار أمريكي للدقيقة، ومناسبة لجميع أنواع المؤسسات، ويتم توفير خطط تسعير مخصصة للمؤسسات ذات أحجام الاستخدام الكبيرة.

تم تأسيس Small.ai على يد خريجي IIT Guwahati سودارشان كاماث وأكشات ماندلوي. وقال كاماث إن استراتيجية السعر المنخفض لشركة Small.ai مدفوعة بتركيزها على جودة البيانات وكفاءة النموذج. وأوضح قائلاً: "إن نموذجنا أصغر بكثير من المنافسين مثل ElevenLabs، ولكننا نحقق مخرجات كلامية عالية الجودة من خلال بيانات دقيقة للغاية".

أفاد مطورو برنامج Voice bot الذين تمكنوا من الوصول المبكر إلى Lightning عن انخفاض تكاليف التشغيل بمقدار 8 أضعاف مع تحسين جودة الصوت. بالإضافة إلى تطبيقات الروبوتات الصوتية في الوقت الفعلي، يمكن أيضًا استخدام Lightning لإنشاء تعليقات صوتية للكتب الصوتية ومحتوى الوسائط الاجتماعية على منصات مثل Instagram وYouTube. يمكن لغير المطورين أيضًا الوصول إلى Lightning من خلال منصة Waves Speech وتجربة ميزات مثل استنساخ الصوت وتحويل اللهجة، والتي هي حاليًا في مرحلة تجريبية.

وفي تفاعل حصري مع مجلة Analytical India، قال كاماث: "عندما بدأنا في البناء، أدركنا أن النماذج الحالية المطلوبة للروبوتات الصوتية لم تكن ناضجة بما يكفي للغات الهندية. ولم تكن النماذج الحالية للغات غير الإنجليزية ترقى إلى المستوى المطلوب". يتطلب الإنتاج."

وفي يونيو من هذا العام، أطلقت شركة Small.ai أيضًا نموذج AWAAZ، الذي يدعم الاستنساخ الصوتي من خلال مقاطع صوتية قصيرة بسعر تنافسي. تم تصميم هذا النموذج لتلبية التطبيقات القابلة للتطوير في أسواق اللغات الإقليمية وتوفير الأمان والامتثال على مستوى المؤسسة. وعندما سُئل كاماث عن مهمته، قال: "لماذا لا يتواصل مليار شخص بصوت الذكاء الاصطناعي بشكل يومي، على الرغم من التقدم الهائل في تكنولوجيا الذكاء الاصطناعي الصوتي؟ هذا هو السؤال الذي نسعى جاهدين لحله".

مدخل المشروع: https://smallest.ai/blog/lightning-fast-text-to-speech

لا شك أن ظهور نموذج Lightning يضع معيارًا جديدًا لتكنولوجيا تركيب الكلام. ستعمل كفاءتها العالية ومنخفضة التكلفة والتكامل السهل على تعزيز شعبية وابتكار تطبيقات الروبوت الصوتي وتوفير فرص جديدة لمزيد من المطورين والشركات. ويأمل محرر Downcodes أن يدعم Lightning المزيد من اللغات والوظائف في المستقبل، مما يوفر تجربة صوتية أكثر ملاءمة وأفضل للمستخدمين حول العالم.