طور فريق البحث في جامعة Tsinghua منصة محاكاة لمصدر الصوت المتنقل تسمى Sonicsim ، بهدف حل مشكلة ندرة البيانات في سيناريوهات مصدر الصوت المتنقل في مجال معالجة الكلام. تم بناء المنصة على الموائل SIM ويمكنها استعادة البيئة الصوتية الحقيقية للغاية وتوفر بيانات عالية الجودة لتدريب وتقييم فصل الكلام والنماذج المحسنة. تستند معظم مجموعات البيانات الحالية إلى مصادر صوتية ثابتة ويصعب تلبية الاحتياجات الفعلية. يقوم Sonicsim Platform بحل هذه المشكلات بشكل فعال ويبني مجموعة بيانات مصدر بيانات صوتية محمولة كبيرة متعددة المسح.
يمكن لهذا المنصة محاكاة مجموعة متنوعة من البيئات الصوتية المعقدة ، بما في ذلك انسداد العقبات ، وهندسة الغرفة ، وتأثير المواد المختلفة على الصوت ، ويدعم معلمات المشهد المعرفة من قبل المستخدم. تستخدم مجموعة بيانات Sonicset البيانات من Librispeech و FreeSound Dataset50k وأرشيف الموسيقى المجاني ، بالإضافة إلى مشاهد حقيقية من مجموعة بيانات MatterPort3D ، وتحتوي على بيانات صوتية غنية وضوضاء وضوضاء الموسيقى. عملية البناء لها آلية للغاية ، مما يضمن صحة وتنوع البيانات. تُظهر النتائج التجريبية أن النموذج الذي تم تدريبه على مجموعة بيانات Sonicset يعمل بشكل أفضل على مجموعة البيانات الحقيقية ، والتحقق من فعالية منصة Sonicsim. جلب إصدار منصة Sonicsim و Sonicset DataSet اختراقات جديدة إلى مجال معالجة الكلام ، وسيعزز أيضًا تطبيق تكنولوجيا معالجة الكلام في بيئات معقدة في المستقبل ، ولكن لا تزال صحتها محدودة بتفاصيل نمذجة المشهد ثلاثي الأبعاد . عنوان الورق: https://arxiv.org/pdf/2410.01481
يوفر ظهور منصة Sonicsim أفكارًا جديدة لاكتساب البيانات في مجال معالجة الكلام ، ويسلط الضوء أيضًا على الدور الهام لتكنولوجيا المحاكاة في حل المشكلات العملية. في المستقبل ، مع التطوير المستمر للتكنولوجيا ، أعتقد أن منصات محاكاة مماثلة ستلعب دورًا في المزيد من المجالات وتعزز تقدم تكنولوجيا الذكاء الاصطناعي.