التي تنتجها تينسنت! يعمل نموذج الصوت AI EzAudio AI على تحويل النص إلى أصوات واقعية في ثوانٍ

الكاتب：Eve Cole وقت التحديث：2024-12-02 14:48:01

تقارير محرر Downcodes: طورت جامعة جونز هوبكنز ومختبر Tencent AI بشكل مشترك نموذجًا رائعًا لتوليد النص إلى الصوت يسمى EzAudio. تمثل إمكانات تحويل الصوت الفعالة وعالية الجودة مجال الذكاء الاصطناعي وتكنولوجيا الصوت. تستخدم EzAudio تقنية المساحة الكامنة الصوتية المبتكرة، جنبًا إلى جنب مع التقنيات المتقدمة مثل AdaLN-SOLA، لتجاوز النماذج مفتوحة المصدر الحالية في كل من التقييمات الموضوعية والذاتية. يتم إتاحة التعليمات البرمجية مفتوحة المصدر للنموذج ومجموعة البيانات ونقاط التحقق النموذجية للجمهور لتشجيع المزيد من البحث والتطبيق.

يعمل EzAudio من خلال استغلال المساحة الكامنة لأشكال الموجات الصوتية بدلاً من المخططات الطيفية التقليدية، وهو ابتكار يسمح له بالعمل بدقة زمنية عالية دون الحاجة إلى مشفر صوتي عصبي إضافي.

تستخدم بنية EzAudio، والتي تسمى EzAudio-DiT (Diffusion Transformer)، عددًا من الابتكارات التكنولوجية لتحسين الأداء والكفاءة. يتضمن ذلك تقنية تطبيع الطبقة التكيفية الجديدة AdaLN-SOLA، واتصالات القفزات الطويلة، وتقنيات تشفير الموضع المتقدمة مثل RoPE (تضمين الموضع المستدير).

يقول الباحثون إن العينات الصوتية التي تم إنشاؤها بواسطة EzAudio واقعية للغاية لدرجة أن التقييمات الموضوعية والذاتية تتفوق على النماذج مفتوحة المصدر الحالية.

حاليًا، ينمو سوق توليد الصوت بالذكاء الاصطناعي بسرعة. أطلقت شركات معروفة مثل ElevenLabs مؤخرًا تطبيق iOS لتحويل النص إلى كلام، مما يظهر اهتمامًا قويًا للمستهلكين بأدوات الصوت المدعمة بالذكاء الاصطناعي. وفي الوقت نفسه، يعمل عمالقة التكنولوجيا مثل مايكروسوفت وجوجل أيضًا على زيادة الاستثمار في تكنولوجيا محاكاة الصوت بالذكاء الاصطناعي.

وفقًا لتوقعات جارتنر، بحلول عام 2027، ستكون 40% من حلول الذكاء الاصطناعي التوليدية متعددة الوسائط، وتجمع بين إمكانيات النص والصور والصوت، مما يعني أن نماذج توليد الصوت عالية الجودة مثل EzAudio من المرجح أن تستمر في التطور دور في مجال الذكاء الاصطناعي.

لقد جعل فريق EzAudio التعليمات البرمجية ومجموعات البيانات ونقاط التفتيش النموذجية متاحة للجمهور، مع التركيز على الشفافية وتشجيع المزيد من البحث في هذا المجال.

يعتقد الباحثون أن EzAudio قد يكون له تطبيقات تتجاوز توليد المؤثرات الصوتية، بما في ذلك مجالات مثل إنتاج الكلام والموسيقى. مع استمرار تقدم التكنولوجيا، من المتوقع أن يتم استخدامها على نطاق واسع في صناعات مثل الترفيه والوسائط والخدمات الإضافية والمساعدين الافتراضيين.

العرض التوضيحي: https://huggingface.co/spaces/OpenSound/EzAudio

مدخل المشروع: https://github.com/haidog-yaqub/EzAudio?tab=readme-ov-file

تسليط الضوء على:

EzAudio هو نموذج جديد لتحويل النص إلى صوت أطلقته جامعة جونز هوبكنز بالتعاون مع Tencent، مما يمثل تقدمًا كبيرًا في تكنولوجيا الصوت.

من خلال الهندسة المعمارية والتكنولوجيا المبتكرة، تتفوق العينات الصوتية التي تم إنشاؤها بواسطة هذا النموذج من حيث الجودة على النماذج مفتوحة المصدر الموجودة، ولها إمكانات تطبيق واسعة.

مع تطور التكنولوجيا، تظهر قضايا الاستخدام الأخلاقي والمسؤول تدريجيًا إلى الواجهة، كما يوفر قانون البحث العام الخاص بـ EzAudio أيضًا فرصًا واسعة النطاق لفحص المخاطر والفوائد في المستقبل.

يمنحها المصدر المفتوح والأداء العالي لـ EzAudio مزايا كبيرة في مجال توليد الصوت بالذكاء الاصطناعي، وآفاق تطبيقها المستقبلية واسعة، ولكنها تحتاج أيضًا إلى الاهتمام بتأثيراتها الأخلاقية والاجتماعية. سيستمر محرر Downcodes في الاهتمام بتقدم هذه التكنولوجيا وتطبيقها.