O editor de Downcodes relatou: Universidade de Wuhan, equipe de inteligência artificial Jiutian da China Mobile e Universidade Duke Kunshan colaboraram para abrir o código-fonte do enorme conjunto de dados de reconhecimento de alto-falantes de áudio e vídeo VoxBlink2 com base em dados do YouTube. Este conjunto de dados contém mais de 110.000 horas de dados de áudio e vídeo, abrangendo quase 10 milhões de clipes de áudio de alta qualidade, de mais de 110.000 usuários do YouTube. É sem precedentes em escala e fornece recursos valiosos para pesquisas na área de reconhecimento de fala. O código aberto do VoxBlink2 visa promover o treinamento e desenvolvimento de grandes modelos de impressão vocal e promover o progresso tecnológico nesta área.
A Universidade de Wuhan, a Equipe de Inteligência Artificial Jiutian da China Mobile e a Universidade Duke Kunshan abriram o código-fonte de mais de 110.000 horas de conjunto de dados de reconhecimento de alto-falantes de áudio e vídeo VoxBlink2 com base em dados do YouTube. Este conjunto de dados contém 9.904.382 clipes de áudio de alta qualidade e seus clipes de vídeo correspondentes de 111.284 usuários no YouTube. Atualmente, é o maior conjunto de dados de reconhecimento de alto-falantes de áudio e vídeo disponível publicamente. A divulgação do conjunto de dados visa enriquecer o corpus de fala de código aberto e apoiar o treinamento de grandes modelos de impressão vocal.
O conjunto de dados VoxBlink2 é extraído de dados por meio das seguintes etapas:
Preparação do candidato: colete listas de palavras-chave multilíngues, recupere vídeos de usuários e selecione vídeos do minuto anterior para processamento.
Extração e detecção de rostos: extraia quadros de vídeo em alta taxa de quadros, use o MobileNet para detectar rostos e garanta que a trilha de vídeo contenha apenas um único alto-falante.
Reconhecimento facial: o reconhecedor facial pré-treinado reconhece quadro a quadro para garantir que os clipes de áudio e vídeo sejam da mesma pessoa.
Detecção ativa de alto-falante: usando sequências de movimento labial e áudio, o detector multimodal de alto-falante ativo emite segmentos vocais e a detecção de aliasing remove segmentos de vários alto-falantes.
A fim de melhorar a precisão dos dados, também foi introduzida uma etapa de desvio do reconhecedor facial integrado para aumentar a precisão de 72% para 92% por meio de extração facial aproximada, verificação facial, amostragem facial e treinamento.
VoxBlink2 também abre modelos de impressão de voz de diferentes tamanhos, incluindo um modelo de convolução 2D baseado em ResNet e um modelo temporal baseado em ECAPA-TDNN, bem como o modelo muito grande ResNet293 baseado em Simple Attention Module. Esses modelos podem atingir um EER de 0,17% e um minDCF de 0,006% após o pós-processamento no conjunto de dados Vox1-O.
Site do conjunto de dados : https://VoxBlink2.github.io
Método de download do conjunto de dados : https://github.com/VoxBlink2/ScriptsForVoxBlink2
Meta arquivos e modelos: https://drive.google.com/drive/folders/1lzumPsnl5yEaMP9g2bFbSKINLZ-QRJVP
Endereço do artigo : https://arxiv.org/abs/2407.11510
Em suma, o código aberto do conjunto de dados VoxBlink2 fornece um impulso poderoso para a pesquisa na área de reconhecimento de fala e reconhecimento de impressão de voz, e esperamos seu papel maior em aplicações futuras. O editor do Downcodes continuará atento ao posterior desenvolvimento e aplicação deste conjunto de dados.