من إنتاج شركة نفيديا! نموذج صوت الذكاء الاصطناعي Fugatto: إدخال النص والصوت لإنشاء الموسيقى والمؤثرات الصوتية - مقالة الذكاء الاصطناعي

الكاتب：Eve Cole وقت التحديث：2025-01-25 11:00:03

أطلقت NVIDIA نموذجًا ثوريًا لتوليد الصوت ومعالجة الذكاء الاصطناعي يسمى Fugatto، والذي يحتوي على 2.5 مليار معلمة وهو مصمم لإضفاء مرونة وإبداع غير مسبوقين في مجال إنشاء الموسيقى والصوت. يجمع Fugatto بين مطالبات النص وتقنية تركيب الصوت المتقدمة، ويدعم إدخال النص والصوت، ويكسر قيود نماذج توليد الصوت التقليدية، ويسمح للمستخدمين بالإنشاء والتعديل في الوقت الفعلي، وإنشاء مجموعة متنوعة من المؤثرات الصوتية الجديدة. تمنح تقنية "تحويل تمثيل الصوت القابل للتركيب" (ComposableART) المبتكرة للمستخدمين تحكمًا غير مسبوق وتحكمًا دقيقًا في الصوت.

في مجال الموسيقى وإنشاء الصوت، واجه الجمع بين التكنولوجيا والإبداع دائمًا العديد من التحديات. غالبًا ما تكون نماذج الذكاء الاصطناعي الحالية جيدة فقط في مهام محددة وتفتقر إلى القدرة على التكيف على نطاق واسع، مما يحد من الدور المساعد للذكاء الاصطناعي في إنتاج الموسيقى. لكي يتمكن الذكاء الاصطناعي من تقديم خدمة أفضل لإنتاج الموسيقى والصوت، هناك حاجة ماسة إلى نموذج عالمي يمكنه الاستجابة بمرونة لمختلف الاحتياجات الإبداعية. ولتحقيق هذه الغاية، أطلقت NVIDIA نموذج Fugatto، وهو نموذج لتوليد ومعالجة الصوت يحتوي على 2.5 مليار معلمة.

تم تصميم Fugatto لتوفير مساحة مرنة للغاية للإدخال الصوتي والتجربة الإبداعية من خلال الجمع بين المطالبات النصية وإمكانيات التركيب الصوتي المتقدمة. على سبيل المثال، يمكنه تحويل لحن البيانو إلى صوت غنائي، أو إعطاء البوق صوتًا غير متوقع.

لا يدعم Fugatto إدخال النص فحسب، بل يدعم أيضًا إدخال الصوت الاختياري، مما يكسر قيود نماذج توليد الصوت التقليدية، ويسمح للفنانين والمطورين بالإنشاء والتعديل في الوقت الفعلي، وإنشاء أنواع جديدة من الأصوات بسلاسة.

على الجانب الفني، يستخدم فوجاتو نهجًا مبتكرًا لتوليد البيانات يتجاوز التعلم التقليدي الخاضع للإشراف. لا يعتمد تدريبها على مجموعات البيانات العادية فحسب، بل يعتمد أيضًا على مجموعات البيانات التي تم إنشاؤها خصيصًا، مما يؤدي إلى إنشاء مجموعة متنوعة غنية من مهام الصوت والتحويل. بالإضافة إلى ذلك، يستخدم Fugatto نماذج لغوية كبيرة (LLM) لتعزيز قدرات إنشاء التعليمات وفهم العلاقة بين المطالبات الصوتية والنصية بشكل أفضل.

أحد الابتكارات المهمة هو تحويل تمثيل الصوت القابل للتركيب (ComposableART)، وهي تقنية تستخدم في وقت الاستدلال لدمج أو استيفاء أو إلغاء تعليمات توليد الصوت المختلفة بمرونة. يمنح ComposableART المستخدمين تحكمًا أكبر في عملية تركيب الصوت، مما يسمح لهم بالتنقل بدقة في لوحة Fugatto الصوتية لإنشاء ظواهر صوتية فريدة.

تعتمد بنية Fugatto على نموذج Transformer المحسن وتستخدم تعديلات محددة مثل تطبيع الطبقة التكيفية للحفاظ على الاتساق في ظل ظروف الإدخال المتعددة ودعم تعليمات المجموعة المعقدة. تظهر الاختبارات الأولية أن أداء Fugatto جيد وفقًا للمعايير المشتركة، خاصة في تركيب الصوت وتحويله، مما يظهر قدرات أكبر من النماذج الاحترافية الأخرى.

يمثل إطلاق Fugatto تقدمًا مهمًا في مجال توليد الصوت بالذكاء الاصطناعي، حيث يكسر القيود التقليدية ويوفر أداة قوية ومرنة لإنتاج الصوت الإبداعي. وتعني تطبيقاتها المحتملة في مجالات متعددة مثل الموسيقى والألعاب والترفيه والتعليم أن تكنولوجيا الذكاء الاصطناعي ستستمر في لعب دور مهم في مساعدة الإبداع البشري.

المدونة الرسمية: https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/

الورقة: https://d1qx31qr3h6wln.cloudfront.net/publications/FUGATTO.pdf

تسليط الضوء على:

Fugatto هو نموذج صوتي للذكاء الاصطناعي تم إطلاقه بواسطة NVIDIA ويحتوي على 2.5 مليار معلمة، ويدعم إدخال النص والصوت، ويساعد في إنشاء الموسيقى والصوت.

وباستخدام أساليب مبتكرة لتوليد البيانات وتقنية تحويل التمثيل الصوتي القابلة للدمج، يمكن للمستخدمين إنشاء الأصوات وتعديلها بمرونة.

وأظهرت الاختبارات الأولية أن فوجاتو يتفوق على العديد من النماذج الاحترافية في تركيب الصوت وتحويله، مما يدل على إمكاناته الإبداعية القوية.

بشكل عام، توفر Fugatto، بوظائفها القوية وميزاتها المرنة، إمكانيات جديدة في مجالات إنشاء الموسيقى وتصميم الصوت، مما يشير إلى أن تطبيق الذكاء الاصطناعي في الصناعة الإبداعية سيكون أكثر شمولاً وتعمقًا. ونحن نتطلع إلى أن يقدم لنا Fugatto المزيد من المفاجآت في المستقبل.