نص فائق السرعة إلى طراز الكلام البرق: زمن انتقال منخفض للغاية ، 100 ميلي ثانية من 10 ثوانٍ من الصوت-مقالات منظمة العفو الدولية

الكاتب：Eve Cole وقت التحديث：2025-02-13 02:16:02

أصدرت أصغر. AMERANT AI AI ، أصدرت أحدث منتجاتها ، Lightning ، نموذج نص إلى كلام (TTS) بسرعة مذهلة. يولد Lightning ما يصل إلى 10 ثوان من الصوت في 100 ميلي ثانية ، ويدعم لهجات متعددة باللغة الإنجليزية والهندية ، ويخطط لدعم المزيد من اللغات. إن التكلفة المنخفضة (0.02 دولار فقط في الدقيقة) وتصميم API البسيط يجعلها مثالية لمطوري الروبوت الصوتية ، مما يقلل بشكل كبير من تكاليف التطوير والتشغيل ، وتحسين كفاءة التوليف الصوتي والوصول إلى التطبيقات. ستقوم هذه المقالة بتحليل الخصائص الوظيفية المختلفة وتحديد المواقع في السوق وأصغرها. رؤية الشركات بالتفصيل.

في الآونة الأخيرة ، أطلقت أصغر. AI ، وهي شركة ناشئة من الذكاء الاصطناعي مقرها في سان فرانسيسكو ، كاليفورنيا ، طرازًا جديدًا للمنتجات ، وهو نموذج من النص إلى كلام (TTS) يمكنه توليد ما يصل إلى 10 ثوان من الصوت في 100 ميلي ثانية. مكّن التقدم في هذه التكنولوجيا المطورين في جميع أنحاء العالم من بناء تطبيقات روبوت صوتي للغاية محاكاة ، مع أوقات تأخير قصيرة للغاية ، مما يقلل من تكاليف التنفيذ وتحسين إمكانية الوصول إلى التطبيق.

يدعم Lightning حاليًا لهجات متعددة باللغة الإنجليزية والهندية ، ويخطط الفريق أيضًا لإضافة المزيد من اللغات لتلبية الطلب على السوق. تسعير هذا النموذج بسعر 0.02 دولار أمريكي في الدقيقة (حوالي 1.6 روبية هندية) بحل فعال من حيث التكلفة لمطوري الروبوت الصوتي ، مع التحكم في تكاليف تشغيل التطبيق أقل من 1 في الدقيقة ، مما يقلل بشكل كبير من تكلفة بناء الروبوتات الصوتية وتوسيع إمكانية الوصول إلى السوق.

على عكس نموذج TTS التقليدي الذي يعتمد على مآخذ البث والشبكة لزيادة عبء الخادم وقابلية التوسع المعقدة ، يستخدم Lightning تصميم API البسيط لتمكين الصوت في حوالي 100 مللي ثانية ، وتجنب الضغط المستمر. هذه القوة المعالجة السريعة وكفاءة التكلفة تجعلها بديلاً مهمًا في صناعة الروبوتات الصوتية.

يمكن تلخيص ميزات منتج Lightning على النحو التالي

1. السرعة والكفاءة. يُعرف نموذج البرق ، المعروف باسم أسرع نص في العالم إلى كلام ، 10 ثوان من الصوت السريالي في 100 ميلي ثانية ، التوليف الصوتي في الوقت الفعلي ، وتلبية احتياجات الاستجابة السريعة.

2. صغير وتوافق. مع متطلبات ذاكرة الفيديو التي تقل عن 1 جيجابايت ، يكون النموذج صغير الحجم ويمكنه تشغيله بسهولة على معظم المستهلكين والأجهزة الحافة ، مما يقلل متطلبات الأجهزة.

3. الدعم متعدد اللغات. يدعم الدعم متعدد اللغات واللكنة لهجات متعددة باللغة الإنجليزية والهندية ، ويخطط لإضافة المزيد من اللغات بسرعة لتلبية احتياجات المستخدمين في جميع أنحاء العالم.

4. يقوم موزع النمط ، باستخدام ناشر نمط خاص ، بضبط نمط الصوت وفقًا لاحتياجات المستخدم ، مما يجعل الصوت المولد أكثر طبيعية وعاطفية.

5. التكامل البسيط. يوفر تكامل API REST واجهة بسيطة لـ REST API ، حيث يمكن للمطورين دمج نماذج البرق بسرعة في الأنظمة الحالية ، مما يلغي اتصالات WebSocket المعقدة.

6. يبدأ التسعير بأسعار معقولة من 0.04 دولار أمريكي في الدقيقة ، وهو مناسب لجميع أنواع المؤسسات.

تأسست أصغر من قبل المعهد الهندي للتكنولوجيا خريجي غواهاتي سودارشان كاماث وأكشات ماندووي. قال كاماث إن استراتيجية الأسعار المنخفضة لـ AIA ترجع إلى تركيزها على جودة البيانات وكفاءة النموذج. ويوضح قائلاً: "نموذجنا أصغر بكثير من المنافسين مثل Elevenlabs ، لكننا نحقق ناتجًا صوتيًا عالي الجودة مع بيانات عالية المكررة".

أفاد مطورو Robot الصوتي الذين تمكنوا من الوصول المبكر إلى Lightning إلى أن تكاليف التشغيل قد انخفضت بمقدار 8 مرات ، في حين تم تحسين جودة الصوت. بالإضافة إلى تطبيقات Robot Voice في الوقت الفعلي ، يمكن أيضًا استخدام Lightning لإنشاء صوتيات صوتية للكتب الصوتية ومحتوى الوسائط الاجتماعية ، مثل منصات مثل Instagram و YouTube. يمكن للمطورات أيضًا الوصول إلى البرق من خلال منصة الكلام Waves لتجربة ميزات بما في ذلك الاستنساخ الصوتي وتحويل لهجة ، والتي هي حاليًا في بيتا.

قال كاماث في تفاعل حصري مع مجلة التحليلات الهند: "عندما بدأنا بنائها ، أدركنا أن النماذج المطلوبة للروبوتات الصوتية الحالية ليست ناضجة بما يكفي لللغات الهندية. الإنتاج. "

في يونيو من هذا العام ، أطلقت أصغر. AAI أيضًا طراز Awaz ، الذي يدعم الاستنساخ السليم من خلال مقاطع صوتية قصيرة ، ويتم تسعيرها بسعر تنافسي. تم تصميم النموذج لتلبية التطبيقات القابلة للتطوير في سوق اللغة الإقليمية ولتوفير الأمن والامتثال على مستوى المؤسسة. وردا على سؤال حول مهمتها ، قال كاماث: "لماذا لا يتواصل مليار شخص مع AI Voice كل يوم ، على الرغم من التقدم الهائل في تكنولوجيا AI الصوتية؟

مدخل المشروع: https://smallest.ai/blog/lightning-fast-text-to-appeech

النقاط الرئيسية:

يولد طراز Text-to-topesh Lightning الصوت في 100 ميلي ثانية ، ويدعم لهجات متعددة باللغة الإنجليزية والهندية ، وسيوسع المزيد من اللغات في المستقبل.

بتكلفة منخفضة قدرها 0.02 دولار فقط في الدقيقة ، فإنه يقلل بشكل كبير من تكاليف تشغيل مطوري الروبوت الصوتي.

Lightning ليس مناسبًا للروبوتات الصوتية فحسب ، بل أيضًا للكتاب المسموعات ووسائل التواصل الاجتماعي ، مما يجعل من السهل على المطورين وغير المطورين استخدامها.

باختصار ، من المتوقع أن تحدث نموذج البرق في أصغر. من بين ثورة مجال توليف الكلام بسرعته وكفاءته وتكلفة منخفضة وسهولة الاستخدام ، مما يوفر للمطورين والمستخدمين العالميين خدمات صوتية أكثر ملاءمة واقتصادًا. تستحق رؤيتها لحل شمولية تكنولوجيا الصوت الذكاء الاصطناعي الاهتمام أيضًا.