ไค ลี่ 1 , เวนตี้ ซาง 1 , ฉาง เจิง 2 , รุนซวน หยาง 1 , กัว เฉิน 1 , เสี่ยวหลิน หู 1
1 มหาวิทยาลัยซิงหัว ประเทศจีน
2 สถาบันสารสนเทศแห่งชาติ ประเทศญี่ปุ่น
กระดาษ | สาธิต
เราขอแนะนำ SonicSim ซึ่งเป็นชุดเครื่องมือสังเคราะห์ที่ออกแบบมาเพื่อสร้างข้อมูลที่ปรับแต่งได้สูงสำหรับแหล่งกำเนิดเสียงที่เคลื่อนไหว SonicSim ได้รับการพัฒนาโดยใช้ Habitat-sim แพลตฟอร์มการจำลอง AI ที่รวมไว้ ซึ่งรองรับการปรับพารามิเตอร์หลายระดับ รวมถึงระดับฉาก ระดับไมโครโฟน และระดับแหล่งที่มา ดังนั้นจึงสร้างข้อมูลสังเคราะห์ที่หลากหลายมากขึ้น ด้วยการใช้ประโยชน์จาก SonicSim เราได้สร้างชุดข้อมูลการวัดประสิทธิภาพแหล่งกำเนิดเสียงที่เคลื่อนไหว SonicSet โดยใช้ชุดข้อมูล LibriSpeech, Freesound Dataset 50k (FSD50K) และ Free Music Archive (FMA) และ 90 ฉากจาก Matterport3D เพื่อประเมินการแยกคำพูดและโมเดลการปรับปรุงประสิทธิภาพ
[30-10-2567] เราได้แก้ไขข้อบกพร่องในการติดตั้งสภาพแวดล้อมและอัปเดตโค้ดการฝึกอบรมสำหรับโมเดลการแยกคำพูดและการเพิ่มประสิทธิภาพบนชุดข้อมูล SonicSet
[23-10-2567] เราเผยแพร่ training code
สำหรับโมเดลการแยกคำพูดและการเพิ่มประสิทธิภาพบนชุดข้อมูล SonicSet
[2024-10-03] เราเผยแพร่บทความเกี่ยวกับ arxiv
[10-01-2024] เราเปิดตัวชุดข้อมูลการแยกคำพูดในโลกแห่งความเป็นจริง ซึ่งมีจุดมุ่งหมายเพื่อประเมินประสิทธิภาพของโมเดลการแยกคำพูดในสถานการณ์จริง
[31-07-2567] เราเปิด SonicSim dataset
ซึ่งรวมถึงงานการแยกคำพูดและการเพิ่มประสิทธิภาพ
[2024-07-24] เราเผยแพร่สคริปต์สำหรับ dataset construction
และแบบจำลองที่ได้รับการฝึกอบรมล่วงหน้าสำหรับ speech separation and enhancement
การนำเข้าฉาก 3 มิติ: รองรับการนำเข้าเนื้อหา 3 มิติที่หลากหลายจากชุดข้อมูล เช่น Matterport3D ช่วยให้สามารถสร้างสภาพแวดล้อมทางเสียงที่ซับซ้อนได้อย่างมีประสิทธิภาพและปรับขนาดได้
การจำลองสภาพแวดล้อมทางเสียง:
จำลองการสะท้อนของเสียงภายในรูปทรงของห้องโดยใช้การสร้างแบบจำลองเสียงในอาคารและอัลกอริธึมการติดตามเส้นทางแบบสองทิศทาง
แมปป้ายกำกับความหมายของฉาก 3 มิติกับคุณสมบัติของวัสดุ การตั้งค่าการดูดซับ การกระเจิง และค่าสัมประสิทธิ์การส่งผ่านของพื้นผิว
สังเคราะห์ข้อมูลแหล่งกำเนิดเสียงที่เคลื่อนไหวตามเส้นทางของแหล่งกำเนิด เพื่อให้มั่นใจถึงความเที่ยงตรงสูงกับสภาวะในโลกแห่งความเป็นจริง
การกำหนดค่าไมโครโฟน: เสนอการตั้งค่าไมโครโฟนที่หลากหลาย รวมถึงโมโน สองหู และ Ambisonic พร้อมกับรองรับอาร์เรย์ไมโครโฟนเชิงเส้นและแบบวงกลมแบบกำหนดเอง
แหล่งกำเนิดเสียงและตำแหน่งไมโครโฟน: ให้การปรับแต่งหรือการสุ่มตำแหน่งของแหล่งกำเนิดเสียงและตำแหน่งไมโครโฟน รองรับวิถีการเคลื่อนไหวสำหรับการจำลองแหล่งกำเนิดเสียงที่เคลื่อนไหว เพิ่มความสมจริงให้กับสถานการณ์เสียงแบบไดนามิก
คุณสามารถดาวน์โหลดชุดข้อมูลที่สร้างไว้ล่วงหน้าได้จากลิงก์ต่อไปนี้:
ชื่อชุดข้อมูล | วันไดรฟ์ | ดิสก์ไป่ตู้ |
---|---|---|
โฟลเดอร์ train (ไฟล์ rar แยก 40 ไฟล์, 377G) | [ลิงค์ดาวน์โหลด] | [ลิงค์ดาวน์โหลด] |
วาล.rar (4.9G) | [ลิงค์ดาวน์โหลด] | [ลิงค์ดาวน์โหลด] |
test.rar (2.2G) | [ลิงค์ดาวน์โหลด] | [ลิงค์ดาวน์โหลด] |
ข้อมูลมาตรฐานเดือนกันยายน (8.57G) | [ลิงค์ดาวน์โหลด] | [ลิงค์ดาวน์โหลด] |
ข้อมูลมาตรฐานเพิ่มเติม (7.70G) | [ลิงค์ดาวน์โหลด] | [ลิงค์ดาวน์โหลด] |
ชื่อชุดข้อมูล | วันไดรฟ์ | ดิสก์ไป่ตู้ |
---|---|---|
ชุดข้อมูลในโลกแห่งความเป็นจริง (1.0G) | [ลิงค์ดาวน์โหลด] | [ลิงค์ดาวน์โหลด] |
ชุดข้อมูล RealMAN: RealMAN
หากต้องการสร้างชุดข้อมูลด้วยตนเอง โปรดดูที่ README ในโฟลเดอร์ SonicSim-SonicSet/data-script
เอกสารนี้ให้คำแนะนำโดยละเอียดเกี่ยวกับวิธีใช้สคริปต์ที่ให้มาเพื่อสร้างชุดข้อมูล
หากต้องการตั้งค่าสภาพแวดล้อมสำหรับการฝึกอบรมและการอนุมาน ให้ใช้ไฟล์ YAML ที่ให้มา:
conda สร้าง -n SonicSim-Train python=3.10 conda เปิดใช้งาน SonicSim-Train pip ติดตั้ง Cython==3.0.10 numpy==1.26.4 pip ติดตั้ง torch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 --index-url https://download.pytorch.org/whl/cu118 pip ติดตั้ง -r ข้อกำหนด.txt -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
นำทางไปยังไดเร็กทอรี separation
และรันสคริปต์ต่อไปนี้เพื่อสร้างชุดการตรวจสอบความถูกต้องคงที่:
การแยกซีดี หลาม Generate_fixed_validation.py --raw_dir=../SonicSim-SonicSet/SonicSet/scene_datasets/mp3d/val --save_dir=../SonicSim-SonicSet/SonicSet/scene_datasets/mp3d/val-sep-2 --is_mono หลาม Generate_fixed_test.py --raw_dir=/home/pod/SonicSim/SonicSim/SonicSim-SonicSet/SonicSet/scene_datasets/mp3d/test --is_mono
นำทางไปยังไดเร็กทอรี enhancement
และรันสคริปต์ต่อไปนี้เพื่อสร้างชุดการตรวจสอบความถูกต้องคงที่:
การเพิ่มประสิทธิภาพซีดี หลาม Generate_fixed_validation.py --raw_dir=../SonicSim-SonicSet/SonicSet/scene_datasets/mp3d/val --save_dir=../SonicSim-SonicSet/SonicSet/scene_datasets/mp3d/val-enh-noise --is_mono หลาม Generate_fixed_test.py --raw_dir=/home/pod/SonicSim/SonicSim/SonicSim-SonicSet/SonicSet/scene_datasets/mp3d/test --is_mono
นำทางไปยังไดเร็กทอรี separation
และรันสคริปต์การฝึกอบรมด้วยไฟล์การกำหนดค่าที่ระบุ:
การแยกซีดี หลาม train.py --conf_dir=configs/afrcnn.yaml
นำทางไปยังไดเร็กทอรี enhancement
และรันสคริปต์การฝึกอบรมด้วยไฟล์การกำหนดค่าที่ระบุ:
การเพิ่มประสิทธิภาพซีดี หลาม train.py --conf_dir=config/dccrn.yaml
โปรดตรวจสอบเนื้อหาของ README.md ในโฟลเดอร์ sep-checkpoints และ enh-checkpoints ดาวน์โหลดโมเดลที่ได้รับการฝึกอบรมล่วงหน้าที่เหมาะสมใน Release และแตกไฟล์ลงในโฟลเดอร์ที่เหมาะสม
นำทางไปยังไดเร็กทอรี separation
และรันสคริปต์การอนุมานด้วยไฟล์คอนฟิกูเรชันที่ระบุ:
การแยกซีดี หลาม inference.py --conf_dir=../sep-checkpoints/TFGNet-Noise/config.yaml
นำทางไปยังไดเร็กทอรี enhancement
และรันสคริปต์การอนุมานด้วยไฟล์การกำหนดค่าที่ระบุ:
การเพิ่มประสิทธิภาพซีดี python inference.py --conf_dir=../enh-checkpoints/TaylorSENet-Noise/config.yaml
การประเมินประสิทธิภาพเปรียบเทียบของแบบจำลองที่ได้รับการฝึกบนชุดข้อมูลต่างๆ โดยใช้เสียงที่บันทึกจริงพร้อม เสียงรบกวนจากสิ่งแวดล้อม ผลลัพธ์จะถูกรายงานแยกต่างหากสำหรับ "ฝึกบน LRS2-2Mix", "ฝึกบน Libri2Mix" และ "ฝึกบน SonicSet" โดยแยกความแตกต่างด้วยเครื่องหมายทับ ความยาวสัมพัทธ์จะแสดงอยู่ใต้ค่าด้วยแถบแนวนอน
การประเมินประสิทธิภาพเปรียบเทียบของแบบจำลองที่ได้รับการฝึกบนชุดข้อมูลต่างๆ โดยใช้เสียงที่บันทึกจริงพร้อม เสียงรบกวนทางดนตรี ผลลัพธ์จะถูกรายงานแยกต่างหากสำหรับ "ฝึกบน LRS2-2Mix", "ฝึกบน Libri2Mix" และ "ฝึกบน SonicSet" โดยแยกความแตกต่างด้วยเครื่องหมายทับ
การประเมินประสิทธิภาพเชิงเปรียบเทียบของแบบจำลองที่ได้รับการฝึกบนชุดข้อมูลต่างๆ โดยใช้ชุดข้อมูล RealMAN ผลลัพธ์จะถูกรายงานแยกกันสำหรับ “ฝึกบน VoiceBank+DEMAND”, “ฝึกบน DNS Challenge” และ “ฝึกบน SonicSet” โดยแยกความแตกต่างด้วยเครื่องหมายทับ
เราได้ฝึกอบรมโมเดลการแยกและการเพิ่มประสิทธิภาพบนชุดข้อมูล SonicSet แล้ว ผลลัพธ์มีดังนี้:
การเปรียบเทียบวิธีการแยกคำพูดที่มีอยู่ในชุดข้อมูล SonicSet ประสิทธิภาพของแต่ละรุ่นจะแสดงรายการแยกกันสำหรับผลลัพธ์ภายใต้ "เสียงรบกวนสิ่งแวดล้อม" และ "เสียงรบกวนทางดนตรี" โดยแยกความแตกต่างด้วยเครื่องหมายทับ
การเปรียบเทียบวิธีการเพิ่มประสิทธิภาพเสียงพูดที่มีอยู่กับการเปรียบเทียบวิธีการเพิ่มประสิทธิภาพเสียงพูดโดยใช้ชุดทดสอบ SonicSet เมตริกจะแสดงรายการแยกกันภายใต้ "เสียงรบกวนจากสิ่งแวดล้อม" และ "เสียงรบกวนทางดนตรี" โดยแยกความแตกต่างด้วยเครื่องหมายทับ
เราขอแสดงความขอบคุณต่อสิ่งต่อไปนี้:
LibriSpeech สำหรับให้ข้อมูลคำพูด
SoundSpaces สำหรับสภาพแวดล้อมการจำลอง
Apple สำหรับจัดเตรียมสคริปต์การสังเคราะห์เสียงแบบไดนามิก
งานนี้ได้รับอนุญาตภายใต้ Creative Commons Attribution-ShareAlike 4.0 International License