L'éditeur de Downcodes a rapporté : l'Université de Wuhan, l'équipe d'intelligence artificielle China Mobile Jiutian et l'Université Duke Kunshan ont collaboré pour ouvrir la source de l'énorme ensemble de données de reconnaissance de haut-parleurs audio et vidéo VoxBlink2 basé sur les données YouTube. Cet ensemble de données contient plus de 110 000 heures de données audio et vidéo, couvrant près de 10 millions de clips audio de haute qualité, provenant de plus de 110 000 utilisateurs de YouTube. Il est d’une ampleur sans précédent et fournit des ressources précieuses pour la recherche dans le domaine de la reconnaissance vocale. L'open source de VoxBlink2 vise à promouvoir la formation et le développement de modèles d'empreintes vocales à grande échelle et à promouvoir les progrès technologiques dans ce domaine.
L'Université de Wuhan, l'équipe d'intelligence artificielle China Mobile Jiutian et l'Université Duke Kunshan ont open source plus de 110 000 heures d'ensemble de données de reconnaissance de haut-parleurs audio et vidéo VoxBlink2 basé sur les données YouTube. Cet ensemble de données contient 9 904 382 clips audio de haute qualité et leurs clips vidéo correspondants provenant de 111 284 utilisateurs sur YouTube. Il s'agit actuellement du plus grand ensemble de données de reconnaissance de locuteurs audio et vidéo accessible au public. La publication de l'ensemble de données vise à enrichir le corpus vocal open source et à soutenir la formation de grands modèles d'empreintes vocales.
L'ensemble de données VoxBlink2 est constitué de données extraites selon les étapes suivantes :
Préparation des candidats : collectez des listes de mots clés multilingues, récupérez les vidéos des utilisateurs et sélectionnez les vidéos de la minute précédente pour les traiter.
Extraction et détection de visages : extrayez des images vidéo à une fréquence d'images élevée, utilisez MobileNet pour détecter les visages et assurez-vous que la piste vidéo ne contient qu'un seul locuteur.
Reconnaissance faciale : le système de reconnaissance faciale pré-entraîné reconnaît image par image pour garantir que les clips audio et vidéo proviennent de la même personne.
Détection de locuteur actif : à l'aide de séquences de mouvements des lèvres et de l'audio, le détecteur de locuteur actif multimodal émet des segments vocaux et la détection d'alias supprime les segments multi-locuteurs.
Afin d'améliorer la précision des données, une étape de contournement du système de reconnaissance faciale intégré a également été introduite pour augmenter la précision de 72 % à 92 % grâce à l'extraction des visages bruts, à la vérification des visages, à l'échantillonnage des visages et à la formation.
VoxBlink2 propose également des modèles d'empreintes vocales open source de différentes tailles, dont un modèle de convolution 2D basé sur ResNet et un modèle temporel basé sur ECAPA-TDNN, ainsi que le très grand modèle ResNet293 basé sur Simple Attention Module. Ces modèles peuvent atteindre un EER de 0,17 % et un minDCF de 0,006 % après post-traitement sur l'ensemble de données Vox1-O.
Site Web de l'ensemble de données : https://VoxBlink2.github.io
Méthode de téléchargement de l'ensemble de données : https://github.com/VoxBlink2/ScriptsForVoxBlink2
Métafichiers et modèles : https://drive.google.com/drive/folders/1lzumPsnl5yEaMP9g2bFbSKINLZ-QRJVP
Adresse papier : https://arxiv.org/abs/2407.11510
En bref, l’open source de l’ensemble de données VoxBlink2 constitue un puissant élan pour la recherche dans le domaine de la reconnaissance vocale et de la reconnaissance des empreintes vocales, et nous attendons avec impatience son rôle plus important dans les applications futures. L'éditeur de Downcodes continuera de prêter attention au développement et à l'application ultérieurs de cet ensemble de données.