أفاد محرر Downcodes: تعاونت جامعة ووهان وفريق تشاينا موبايل جيوتيان للذكاء الاصطناعي وجامعة ديوك كونشان لفتح مصدر مجموعة بيانات التعرف على مكبرات الصوت والفيديو الضخمة VoxBlink2 استنادًا إلى بيانات YouTube. تحتوي مجموعة البيانات هذه على أكثر من 110,000 ساعة من بيانات الصوت والفيديو، وتغطي ما يقرب من 10 ملايين مقطع صوتي عالي الجودة، من أكثر من 110,000 مستخدم على YouTube، وهي غير مسبوقة من حيث الحجم وتوفر موارد قيمة للبحث في مجال التعرف على الكلام. يهدف المصدر المفتوح لـ VoxBlink2 إلى تعزيز التدريب وتطوير نماذج البصمة الصوتية الكبيرة وتعزيز التقدم التكنولوجي في هذا المجال.
قامت جامعة ووهان وفريق تشاينا موبايل جيوتيان للذكاء الاصطناعي وجامعة ديوك كونشان بفتح المصدر لأكثر من 110.000 ساعة من مجموعة بيانات التعرف على مكبرات الصوت الصوتية والمرئية VoxBlink2 استنادًا إلى بيانات YouTube. تحتوي مجموعة البيانات هذه على 9,904,382 مقطعًا صوتيًا عالي الجودة ومقاطع الفيديو المقابلة لها من 111,284 مستخدمًا على YouTube، وهي حاليًا أكبر مجموعة بيانات للتعرف على مكبرات الصوت والفيديو متاحة للجمهور. يهدف إصدار مجموعة البيانات إلى إثراء مجموعة الكلام مفتوحة المصدر ودعم تدريب نماذج البصمة الصوتية الكبيرة.
مجموعة بيانات VoxBlink2 عبارة عن بيانات يتم استخراجها من خلال الخطوات التالية:
إعداد المرشح: قم بتجميع قوائم الكلمات الرئيسية متعددة اللغات، واسترجاع مقاطع فيديو المستخدم، واختيار مقاطع فيديو من الدقيقة السابقة للمعالجة.
استخراج الوجه واكتشافه: قم باستخراج إطارات الفيديو بمعدل إطارات مرتفع، واستخدم MobileNet لاكتشاف الوجوه، وتأكد من أن مسار الفيديو يحتوي على مكبر صوت واحد فقط.
التعرف على الوجه: يتعرف جهاز التعرف على الوجه المدرب مسبقًا على إطار بإطار للتأكد من أن مقاطع الصوت والفيديو تأتي من نفس الشخص.
اكتشاف السماعة النشطة: باستخدام تسلسلات حركة الشفاه والصوت، يقوم كاشف السماعات النشط متعدد الوسائط بإخراج المقاطع الصوتية، ويقوم اكتشاف الأسماء المستعارة بإزالة المقاطع متعددة السماعات.
ومن أجل تحسين دقة البيانات، تم أيضًا تقديم خطوة تجاوز لجهاز التعرف على الوجه المدمج لزيادة الدقة من 72% إلى 92% من خلال استخراج الوجه الخشن والتحقق من الوجه وأخذ عينات من الوجه والتدريب.
VoxBlink2 أيضًا مفتوح المصدر لنماذج البصمة الصوتية بأحجام مختلفة، بما في ذلك نموذج الالتواء ثنائي الأبعاد المستند إلى ResNet والنموذج الزمني المستند إلى ECAPA-TDNN، بالإضافة إلى النموذج الكبير جدًا ResNet293 المستند إلى Simple Attention Module. يمكن لهذه النماذج تحقيق EER بنسبة 0.17% وminDCF بنسبة 0.006% بعد المعالجة اللاحقة لمجموعة بيانات Vox1-O.
موقع مجموعة البيانات : https://VoxBlink2.github.io
طريقة تنزيل مجموعة البيانات : https://github.com/VoxBlink2/ScriptsForVoxBlink2
الملفات والنماذج التعريفية: https://drive.google.com/drive/folders/1lzumPsnl5yEaMP9g2bFbSKINLZ-QRJVP
عنوان الورقة : https://arxiv.org/abs/2407.11510
باختصار، يوفر المصدر المفتوح لمجموعة بيانات VoxBlink2 دفعة قوية للبحث في مجال التعرف على الكلام والتعرف على بصمة الصوت، ونتطلع إلى دورها الأكبر في التطبيقات المستقبلية. سيستمر محرر Downcodes في الاهتمام بالتطوير والتطبيق اللاحق لمجموعة البيانات هذه.