كاي لي 1 ، ويندي سانغ 1 ، تشانغ تسنغ 2 ، رونكسوان يانغ 1 ، قوه تشين 1 ، شياو لين هو 1
1 جامعة تسينغهوا، الصين
2 المعهد الوطني للمعلوماتية، اليابان
ورق | تجريبي
نقدم لكم SonicSim، وهي مجموعة أدوات اصطناعية مصممة لتوليد بيانات قابلة للتخصيص بدرجة كبيرة لنقل مصادر الصوت. تم تطوير SonicSim استنادًا إلى منصة محاكاة الذكاء الاصطناعي المضمنة، Habitat-sim، التي تدعم تعديلات المعلمات متعددة المستويات، بما في ذلك مستوى المشهد ومستوى الميكروفون ومستوى المصدر، وبالتالي توليد بيانات تركيبية أكثر تنوعًا. بالاستفادة من SonicSim، قمنا ببناء مجموعة بيانات مرجعية لمصدر الصوت المتحرك، SonicSet، باستخدام مجموعة بيانات LibriSpeech، وFreesound Dataset 50k (FSD50K)، وأرشيف الموسيقى المجاني (FMA)، و90 مشهدًا من Matterport3D لتقييم نماذج فصل الكلام وتعزيزه.
[2024-10-30] لقد أصلحنا الأخطاء المتعلقة بتثبيت البيئة وقمنا بتحديث كود التدريب الخاص بفصل الكلام ونماذج التحسين في مجموعة بيانات SonicSet.
[2024-10-23] قمنا بإصدار training code
لنماذج فصل الكلام وتعزيزه في مجموعة بيانات SonicSet.
[2024-10-03] ننشر الورقة على arxiv
[2024-10-01] أصدرنا مجموعة بيانات فصل الكلام في العالم الحقيقي، والتي تهدف إلى تقييم أداء نماذج فصل الكلام في سيناريوهات العالم الحقيقي.
[2024-07-31] قمنا بإصدار SonicSim dataset
، والتي تتضمن مهام فصل الكلام وتحسينه.
[2024-07-24] قمنا بإصدار البرامج النصية لبناء dataset construction
والنماذج المدربة مسبقًا speech separation and enhancement
.
استيراد المشهد ثلاثي الأبعاد: يدعم استيراد مجموعة متنوعة من الأصول ثلاثية الأبعاد من مجموعات البيانات مثل Matterport3D، مما يتيح إنشاء بيئات صوتية معقدة تتسم بالكفاءة والقابلية للتطوير.
محاكاة البيئة الصوتية:
يحاكي الانعكاسات الصوتية داخل هندسة الغرفة باستخدام النمذجة الصوتية الداخلية وخوارزميات تتبع المسار ثنائي الاتجاه.
يقوم بتعيين التسميات الدلالية للمشاهد ثلاثية الأبعاد لخصائص المواد، وتحديد معاملات الامتصاص والتشتت والانتقال للأسطح.
يقوم بتجميع بيانات مصدر الصوت المتحركة بناءً على مسارات المصدر، مما يضمن دقة عالية لظروف العالم الحقيقي.
تكوينات الميكروفون: يقدم نطاقًا واسعًا من إعدادات الميكروفون، بما في ذلك الصوت الأحادي والأذنين وAmbisonics، بالإضافة إلى دعم مصفوفات الميكروفون الخطية والدائرية المخصصة.
تحديد موضع المصدر والميكروفون: يوفر التخصيص أو التوزيع العشوائي لمواضع مصدر الصوت والميكروفون. يدعم مسارات الحركة لمحاكاة مصدر الصوت المتحرك، مما يضيف الواقعية إلى السيناريوهات الصوتية الديناميكية.
يمكنك تنزيل مجموعة البيانات المعدة مسبقًا من الرابط التالي:
اسم مجموعة البيانات | ون درايف | قرص بايدو |
---|---|---|
مجلد القطار (40 ملف rar مقسم، 377 جيجا) | [رابط التحميل] | [رابط التحميل] |
فال.رر (4.9G) | [رابط التحميل] | [رابط التحميل] |
اختبار rar (2.2 جيجا) | [رابط التحميل] | [رابط التحميل] |
بيانات المعيار sep (8.57G) | [رابط التحميل] | [رابط التحميل] |
البيانات المعيارية (7.70 جيجا) | [رابط التحميل] | [رابط التحميل] |
اسم مجموعة البيانات | ون درايف | قرص بايدو |
---|---|---|
مجموعة بيانات العالم الحقيقي (1.0G) | [رابط التحميل] | [رابط التحميل] |
مجموعة بيانات RealMAN: RealMAN
لإنشاء مجموعة البيانات بنفسك، يرجى الرجوع إلى الملف README الموجود في مجلد SonicSim-SonicSet/data-script
. يوفر هذا المستند إرشادات مفصلة حول كيفية استخدام البرامج النصية المتوفرة لإنشاء مجموعة البيانات.
لإعداد بيئة التدريب والاستدلال، استخدم ملف YAML المقدم:
conda create -n SonicSim-Train python=3.10 كوندا تفعيل SonicSim-القطار تثبيت النقطة Cython==3.0.10 numpy==1.26.4 شعلة تثبيت النقطة ==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 --index-url https://download.pytorch.org/whl/cu118 تثبيت النقطة -r المتطلبات.txt -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
انتقل إلى دليل separation
وقم بتشغيل البرنامج النصي التالي لإنشاء مجموعة التحقق الثابتة:
فصل القرص المضغوط python generator_fixed_validation.py --raw_dir=../SonicSim-SonicSet/SonicSet/scene_datasets/mp3d/val --save_dir=../SonicSim-SonicSet/SonicSet/scene_datasets/mp3d/val-sep-2 --is_mono بايثون generator_fixed_test.py --raw_dir=/home/pod/SonicSim/SonicSim/SonicSim-SonicSet/SonicSet/scene_datasets/mp3d/test --is_mono
انتقل إلى دليل enhancement
وقم بتشغيل البرنامج النصي التالي لإنشاء مجموعة التحقق الثابتة:
تعزيز القرص المضغوط python generator_fixed_validation.py --raw_dir=../SonicSim-SonicSet/SonicSet/scene_datasets/mp3d/val --save_dir=../SonicSim-SonicSet/SonicSet/scene_datasets/mp3d/val-enh-noise --is_mono بايثون generator_fixed_test.py --raw_dir=/home/pod/SonicSim/SonicSim/SonicSim-SonicSet/SonicSet/scene_datasets/mp3d/test --is_mono
انتقل إلى دليل separation
وقم بتشغيل البرنامج النصي للتدريب باستخدام ملف التكوين المحدد:
فصل القرص المضغوط python Train.py --conf_dir=configs/afrcnn.yaml
انتقل إلى دليل enhancement
وقم بتشغيل البرنامج النصي للتدريب باستخدام ملف التكوين المحدد:
تعزيز القرص المضغوط python Train.py --conf_dir=config/dccrn.yaml
يرجى التحقق من محتويات README.md في مجلدات sep-checkpoints وenh-checkpoints، وتنزيل النماذج المدربة مسبقًا المناسبة في الإصدار وفك ضغطها في المجلدات المناسبة.
انتقل إلى دليل separation
وقم بتشغيل البرنامج النصي للاستدلال باستخدام ملف التكوين المحدد:
فصل القرص المضغوط python inference.py --conf_dir=../sep-checkpoints/TFGNet-Noise/config.yaml
انتقل إلى دليل enhancement
وقم بتشغيل البرنامج النصي للاستدلال باستخدام ملف التكوين المحدد:
تعزيز القرص المضغوط python inference.py --conf_dir=../enh-checkpoints/TaylorSENet-Noise/config.yaml
تقييم الأداء المقارن للنماذج المدربة على مجموعات بيانات مختلفة باستخدام الصوت المسجل الحقيقي مع الضوضاء البيئية . تم عرض النتائج بشكل منفصل لـ "trained on LRS2-2Mix"، و"trained on Libri2Mix" و"trained on SonicSet"، مع تمييزها بشرطة مائلة. يشار إلى الطول النسبي أسفل القيمة بواسطة أشرطة أفقية.
تقييم الأداء المقارن للنماذج المدربة على مجموعات بيانات مختلفة باستخدام الصوت المسجل الحقيقي مع الضوضاء الموسيقية . تم عرض النتائج بشكل منفصل لـ "trained on LRS2-2Mix"، و"trained on Libri2Mix" و"trained on SonicSet"، مع تمييزها بشرطة مائلة.
تقييم الأداء المقارن للنماذج المدربة على مجموعات بيانات مختلفة باستخدام مجموعة بيانات RealMAN. يتم عرض النتائج بشكل منفصل لـ "trained on VoiceBank+DEMAND"، و"trained on DNS Challenge" و"trained on SonicSet"، مع تمييزها بشرطة مائلة.
لقد قمنا بتدريب نماذج الفصل والتحسين على مجموعة بيانات SonicSet. النتائج هي كما يلي:
مقارنة طرق فصل الكلام الموجودة في مجموعة بيانات SonicSet. يتم إدراج أداء كل طراز بشكل منفصل للحصول على النتائج ضمن "الضوضاء البيئية" و"الضوضاء الموسيقية"، مع تمييزها بشرطة مائلة.
مقارنة طرق تحسين الكلام الموجودة مقارنة طرق تحسين الكلام باستخدام مجموعة اختبار SonicSet. يتم إدراج المقاييس بشكل منفصل تحت عنوان "الضوضاء البيئية" و"الضوضاء الموسيقية"، مع تمييزها بشرطة مائلة.
ونود أن نعرب عن امتناننا لكل من:
LibriSpeech لتوفير بيانات الكلام.
SoundSpaces لبيئة المحاكاة.
Apple لتوفير البرامج النصية الديناميكية لتركيب الصوت.
تم ترخيص هذا العمل بموجب ترخيص Creative Commons Attribution-ShareAlike 4.0 الدولي.