تخيل أن تكون قادرًا على إنتاج موسيقى أو مؤثرات صوتية عالية الجودة ببضع طنينات أو إيقاعات، لم يعد هذا حلمًا بعيد المنال. يحقق Sketch2Sound، نتيجة أبحاث الذكاء الاصطناعي الرائدة، إنتاجًا صوتيًا عالي الجودة من خلال الجمع بين تقليد الصوت والمطالبات النصية. إنه يستخدم بذكاء إشارات التحكم الرئيسية الثلاثة المتمثلة في ارتفاع الصوت والسطوع ودرجة الصوت المستخرجة من تقليد الصوت، ويدمجها في نموذج النشر المحتمل للنص إلى الصوت، وبالتالي توجيه الذكاء الاصطناعي لتوليد أصوات تلبي متطلبات محددة، مما يحقق فوائد كبيرة في مجال خلق الصوت التغييرات الثورية.
تتمثل التقنية الأساسية لـ Sketch2Sound في قدرتها على استخراج ثلاث إشارات تحكم رئيسية متغيرة بمرور الوقت من أي تقليد صوتي (مثل التقليد الصوتي أو الصوت المرجعي): جهارة الصوت والسطوع (النقطه الوسطى الطيفية) وطبقة الصوت. بمجرد تشفير إشارات التحكم هذه، تتم إضافتها إلى نموذج الانتشار الأساسي المستخدم لإنشاء تحويل النص إلى صوت، وبالتالي توجيه الذكاء الاصطناعي لتوليد أصوات تلبي متطلبات محددة.
الشيء الأكثر إثارة للإعجاب في هذه التكنولوجيا هو خفة وزنها وكفاءتها. تم بناء Sketch2Sound على نموذج النشر الكامن الحالي من النص إلى الصوت، والذي يتطلب 40.000 خطوة فقط من الضبط الدقيق، ويتطلب طبقة خطية واحدة فقط لكل إشارة تحكم، مما يجعلها أكثر إيجازًا وكفاءة من الطرق الأخرى (مثل ControlNet). ولتمكين النموذج من التوليف من تقليد صوتي يشبه "الرسم"، طبق الباحثون أيضًا مرشحًا متوسطًا عشوائيًا على إشارة التحكم أثناء التدريب، مما يسمح لها بالتكيف مع إشارات التحكم ذات الخصائص الزمنية المرنة. تظهر النتائج التجريبية أن Sketch2Sound لا يمكنه فقط تجميع الأصوات التي تتوافق مع إشارة التحكم في الإدخال، بل يمكنه أيضًا الحفاظ على الامتثال للمطالبات النصية وتحقيق جودة صوت مماثلة للخط الأساسي للنص العادي.
يوفر Sketch2Sound لفناني الصوت طريقة جديدة للإبداع. يمكنهم استغلال المرونة الدلالية للمطالبات النصية، جنبًا إلى جنب مع التعبير ودقة الإيماءات الصوتية أو التقليد، لإنشاء تركيبات صوتية غير مسبوقة. وهذا مشابه لفناني فولي التقليديين الذين ينشئون مؤثرات صوتية عن طريق التعامل مع الأشياء، بينما يوجه Sketch2Sound توليد الصوت من خلال تقليد الصوت، مما يضفي لمسة "إنسانية" على إنشاء الصوت وتحسين القيمة الفنية للأعمال الصوتية.
Sketch2Sound قادر على التغلب على قيوده مقارنة بطرق التفاعل التقليدية لتحويل النص إلى الصوت. في الماضي، كان مصممو الصوت يحتاجون إلى قضاء الكثير من الوقت في ضبط الخصائص الزمنية للأصوات المولدة لمزامنتها مع المؤثرات البصرية. ويمكن لـ Sketch2Sound تحقيق هذه المزامنة بشكل طبيعي من خلال تقليد الصوت، ولا يقتصر على تقليد الصوت البشري، أي نوع من الصوت. ويمكن استخدام التقليد لقيادة هذا النموذج التوليدي.
كما طور الباحثون تقنية لضبط التفاصيل الزمنية لإشارة التحكم من خلال تطبيق مرشحات متوسطة بأحجام مختلفة من النوافذ أثناء التدريب. يتيح ذلك لفناني الصوت التحكم في مدى التزام النموذج التوليدي بدقة توقيت إشارة التحكم، وبالتالي تحسين جودة الأصوات التي يصعب تقليدها بشكل مثالي. في التطبيقات العملية، يمكن للمستخدمين إيجاد توازن بين الالتزام الصارم بتقليد الصوت وضمان جودة الصوت عن طريق ضبط حجم المرشح المتوسط.
مبدأ عمل Sketch2Sound هو أولاً استخراج ثلاث إشارات تحكم لجهارة الصوت والطيف النقطه الوسطى ودرجة الصوت من إشارة الصوت المدخلة. تتم بعد ذلك محاذاة إشارات التحكم هذه مع الإشارات الكامنة في نموذج تحويل النص إلى صوت، ويتم ضبط نموذج الانتشار الكامن من خلال طبقة إسقاط خطية بسيطة لتوليد الصوت المطلوب في النهاية. تظهر النتائج التجريبية أن تكييف النموذج من خلال التحكم المتغير بمرور الوقت في الإشارة يمكن أن يحسن بشكل كبير التوافق مع هذه الإشارة، مع وجود تأثير ضئيل على جودة الصوت وامتثال النص.
ومن الجدير بالذكر أن الباحثين وجدوا أيضًا أن إشارات التحكم يمكنها التعامل مع دلالات الإشارات المولدة. على سبيل المثال، عند استخدام موجه النص "أجواء الغابة"، إذا تمت إضافة دفعات جهارة صوت عشوائية إلى تقليد الصوت، فيمكن للنموذج تجميع نداءات الطيور في رشقات جهارة الصوت هذه بدون موجه "طيور" الإضافي، مما يشير إلى أن النموذج قد تعلم الارتباط بين انفجارات جهارة الصوت ووجود الطيور.
بالطبع، هناك بعض القيود على Sketch2Sound، مثل حقيقة أن مركز التحكم الشامل قد يدمج نغمات الغرفة التي تم تصميمها بواسطة أصوات الإدخال في الصوت الناتج، ربما لأن نغمات الغرفة يتم تشفيرها بواسطة مركز الكتلة عندما يكون هناك لا توجد أحداث صوتية في إدخال الصوت.
بشكل عام، يعد Sketch2Sound نموذجًا صوتيًا قويًا يمكنه توليد الأصوات من خلال المطالبات النصية وعناصر التحكم المتغيرة بمرور الوقت (جهارة الصوت والسطوع ودرجة الصوت). يمكنه توليد الأصوات من خلال تقليد الصوت ومنحنيات التحكم "الرسمية"، وهو خفيف الوزن وفعال، وهو يوفر لفناني الصوت أداة معبرة يمكن التحكم فيها وقائمة على الإيماءات ويمكنها توليد أصوات بتوقيت مرن آفاق التطبيق في مجالات إنشاء الموسيقى وتصميم صوت الألعاب في المستقبل.
عنوان الورقة: https://arxiv.org/pdf/2412.08550
يبشر ظهور Sketch2Sound بعصر جديد في مجال إنشاء الصوت، فهو يوفر للفنانين حرية وإمكانيات إبداعية غير مسبوقة، كما يوفر مساحة خيال غير محدودة للموسيقى والألعاب والأفلام وغيرها من المجالات. أعتقد أنه في المستقبل القريب، سيتم استخدام هذه التكنولوجيا على نطاق أوسع وستجلب لنا عالمًا صوتيًا أكثر تنوعًا.