บรรณาธิการของ Downcodes รายงานว่า มหาวิทยาลัยหวู่ฮั่น ทีมปัญญาประดิษฐ์ Jiutian ของ China Mobile และมหาวิทยาลัย Duke Kunshan ร่วมมือกันเพื่อเปิดซอร์สชุดข้อมูลการจดจำผู้พูดเสียงและวิดีโอขนาดใหญ่ชุด VoxBlink2 โดยอิงจากข้อมูล YouTube ชุดข้อมูลนี้ประกอบด้วยข้อมูลเสียงและวิดีโอมากกว่า 110,000 ชั่วโมง ครอบคลุมคลิปเสียงคุณภาพสูงเกือบ 10 ล้านคลิป จากผู้ใช้ YouTube มากกว่า 110,000 ราย เป็นข้อมูลขนาดใหญ่ที่ไม่เคยมีมาก่อนและเป็นทรัพยากรที่มีคุณค่าสำหรับการวิจัยด้านการรู้จำเสียง โอเพ่นซอร์สของ VoxBlink2 มีวัตถุประสงค์เพื่อส่งเสริมการฝึกอบรมและการพัฒนาโมเดลพิมพ์เสียงขนาดใหญ่ และส่งเสริมความก้าวหน้าทางเทคโนโลยีในสาขานี้
มหาวิทยาลัยหวู่ฮั่น ทีมปัญญาประดิษฐ์ China Mobile Jiutian และมหาวิทยาลัย Duke Kunshan ได้เปิดซอร์สชุดข้อมูลการจดจำเสียงและวิดีโอของผู้พูดมากกว่า 110,000 ชั่วโมง VoxBlink2 โดยอิงจากข้อมูล YouTube ชุดข้อมูลนี้ประกอบด้วยคลิปเสียงคุณภาพสูง 9,904,382 คลิปและคลิปวิดีโอที่เกี่ยวข้องจากผู้ใช้ 111,284 รายบน YouTube ปัจจุบันเป็นชุดข้อมูลการจดจำผู้พูดเสียงและวิดีโอที่ใหญ่ที่สุดที่เปิดเผยต่อสาธารณะ การเปิดตัวชุดข้อมูลนี้มีจุดมุ่งหมายเพื่อปรับปรุงคลังเสียงพูดของโอเพ่นซอร์ส และสนับสนุนการฝึกอบรมโมเดลการพิมพ์เสียงขนาดใหญ่
ชุดข้อมูล VoxBlink2 เป็นข้อมูลที่ขุดผ่านขั้นตอนต่อไปนี้:
การเตรียมตัวสำหรับผู้สมัคร: รวบรวมรายการคำหลักหลายภาษา ดึงข้อมูลวิดีโอของผู้ใช้ และเลือกวิดีโอจากนาทีก่อนหน้าเพื่อประมวลผล
การดึงและตรวจจับใบหน้า: แยกเฟรมวิดีโอที่อัตราเฟรมสูง ใช้ MobileNet เพื่อตรวจจับใบหน้า และตรวจสอบให้แน่ใจว่าแทร็กวิดีโอมีลำโพงเพียงตัวเดียวเท่านั้น
การจดจำใบหน้า: ระบบจดจำใบหน้าที่ได้รับการฝึกล่วงหน้าจะจดจำเฟรมต่อเฟรมเพื่อให้แน่ใจว่าคลิปเสียงและวิดีโอมาจากบุคคลคนเดียวกัน
การตรวจจับลำโพงที่ใช้งานอยู่: การใช้ลำดับการเคลื่อนไหวของริมฝีปากและเสียง อุปกรณ์ตรวจจับลำโพงที่ใช้งานหลายโมดัลจะส่งเอาต์พุตส่วนของเสียงร้อง และการตรวจจับนามแฝงจะลบส่วนของลำโพงหลายตัวออก
เพื่อปรับปรุงความแม่นยำของข้อมูล จึงมีการนำขั้นตอนการบายพาสของระบบจดจำใบหน้าที่ติดตั้งมาเพื่อเพิ่มความแม่นยำจาก 72% เป็น 92% ผ่านการดึงใบหน้าแบบหยาบ การตรวจสอบใบหน้า การสุ่มตัวอย่างใบหน้า และการฝึกอบรม
นอกจากนี้ VoxBlink2 ยังมีโมเดลการพิมพ์เสียงโอเพ่นซอร์สในขนาดต่างๆ รวมถึงโมเดล Convolution 2D ที่ใช้ ResNet และโมเดลชั่วคราวที่ใช้ ECAPA-TDNN รวมถึงโมเดลขนาดใหญ่มาก ResNet293 ที่ใช้ Simple Attention Module โมเดลเหล่านี้สามารถรับ EER 0.17% และ minDCF 0.006% หลังการประมวลผลชุดข้อมูล Vox1-O
เว็บไซต์ชุดข้อมูล : https://VoxBlink2.github.io
วิธีการดาวน์โหลดชุดข้อมูล : https://github.com/VoxBlink2/ScriptsForVoxBlink2
ไฟล์ Meta และรุ่น: https://drive.google.com/drive/folders/1lzumPsnl5yEaMP9g2bFbSKINLZ-QRJVP
ที่อยู่กระดาษ : https://arxiv.org/abs/2407.11510
กล่าวโดยสรุป โอเพ่นซอร์สของชุดข้อมูล VoxBlink2 ช่วยเพิ่มศักยภาพในการวิจัยด้านการรู้จำเสียงพูดและการรู้จำเสียงพิมพ์ และเราหวังว่าจะมีบทบาทมากขึ้นในการใช้งานในอนาคต ผู้แก้ไข Downcodes จะยังคงให้ความสนใจกับการพัฒนาและการประยุกต์ใช้ชุดข้อมูลนี้ต่อไป