Der Herausgeber von Downcodes berichtete: Die Wuhan University, das China Mobile Jiutian Artificial Intelligence Team und die Duke Kunshan University haben zusammengearbeitet, um den riesigen Audio- und Video-Sprechererkennungsdatensatz VoxBlink2 basierend auf YouTube-Daten als Open Source zu veröffentlichen. Dieser Datensatz enthält mehr als 110.000 Stunden Audio- und Videodaten, die fast 10 Millionen hochwertige Audioclips von mehr als 110.000 YouTube-Nutzern umfassen. Er ist in seinem Umfang beispiellos und bietet wertvolle Ressourcen für die Forschung im Bereich der Spracherkennung. Die Open Source von VoxBlink2 zielt darauf ab, die Ausbildung und Entwicklung großer Stimmabdruckmodelle zu fördern und den technologischen Fortschritt in diesem Bereich voranzutreiben.
Die Wuhan University, das China Mobile Jiutian Artificial Intelligence Team und die Duke Kunshan University haben mehr als 110.000 Stunden Audio- und Video-Sprechererkennungsdatensatz VoxBlink2 basierend auf YouTube-Daten als Open-Source-Quelle bereitgestellt. Dieser Datensatz enthält 9.904.382 hochwertige Audioclips und die entsprechenden Videoclips von 111.284 Nutzern auf YouTube. Es ist derzeit der größte öffentlich verfügbare Datensatz zur Audio- und Video-Sprechererkennung. Die Veröffentlichung des Datensatzes zielt darauf ab, den Open-Source-Sprachkorpus zu bereichern und das Training großer Stimmabdruckmodelle zu unterstützen.
Die Datengewinnung aus dem VoxBlink2-Datensatz erfolgt in den folgenden Schritten:
Kandidatenvorbereitung: Sammeln Sie mehrsprachige Keyword-Listen, rufen Sie Benutzervideos ab und wählen Sie Videos der letzten Minute zur Bearbeitung aus.
Gesichtsextraktion und -erkennung: Extrahieren Sie Videobilder mit hoher Bildrate, verwenden Sie MobileNet zur Gesichtserkennung und stellen Sie sicher, dass die Videospur nur einen einzigen Sprecher enthält.
Gesichtserkennung: Die vorab trainierte Gesichtserkennung erkennt Bild für Bild, um sicherzustellen, dass die Audio- und Videoclips von derselben Person stammen.
Erkennung aktiver Sprecher: Mithilfe von Lippenbewegungssequenzen und Audio gibt der multimodale Detektor für aktive Sprecher Stimmsegmente aus und die Aliasing-Erkennung entfernt Segmente mit mehreren Sprechern.
Um die Datengenauigkeit zu verbessern, wurde außerdem ein Bypass-Schritt der integrierten Gesichtserkennung eingeführt, um die Genauigkeit durch grobe Gesichtsextraktion, Gesichtsüberprüfung, Gesichtsprobenahme und Training von 72 % auf 92 % zu erhöhen.
VoxBlink2 bietet auch Open-Source-Voiceprint-Modelle unterschiedlicher Größe an, darunter ein 2D-Faltungsmodell auf Basis von ResNet und ein zeitliches Modell auf Basis von ECAPA-TDNN sowie das sehr große Modell ResNet293 auf Basis des Simple Attention Module. Diese Modelle können nach der Nachbearbeitung des Vox1-O-Datensatzes einen EER von 0,17 % und einen minDCF von 0,006 % erreichen.
Datensatz-Website : https://VoxBlink2.github.io
Methode zum Herunterladen des Datensatzes : https://github.com/VoxBlink2/ScriptsForVoxBlink2
Metadateien und Modelle: https://drive.google.com/drive/folders/1lzumPsnl5yEaMP9g2bFbSKINLZ-QRJVP
Papieradresse : https://arxiv.org/abs/2407.11510
Kurz gesagt, die offene Quelle des VoxBlink2-Datensatzes bietet einen starken Schub für die Forschung im Bereich der Spracherkennung und Stimmabdruckerkennung, und wir freuen uns auf seine größere Rolle in zukünftigen Anwendungen. Der Herausgeber von Downcodes wird der weiteren Entwicklung und Anwendung dieses Datensatzes weiterhin Aufmerksamkeit widmen.