Downcodes小編報:武漢大學、中國移動九天人工智慧團隊和崑山杜克大學合作,基於YouTube數據,開源了龐大的音視頻說話者識別數據集VoxBlink2。該資料集包含超過11萬小時的影音數據,涵蓋近千萬個高品質音訊片段,來自超過11萬名YouTube用戶,規模空前,為語音辨識領域的研究提供了寶貴的資源。 VoxBlink2的開源旨在促進聲紋大模式的訓練和發展,推動該領域的技術進步。
武漢大學聯合中國移動九天人工智慧團隊和崑山杜克大學基於YouTube資料開源了超過11萬小時的音訊視訊說話者識別資料集VoxBlink2。該資料集包含9904382個高品質音訊片段及其對應的影片片段,來自YouTube上的111284名用戶,是目前最大的公開可用的影音說話者識別資料集。資料集的發布旨在豐富開源語音語料庫,支援訓練聲紋大模型。
VoxBlink2資料集透過以下步驟進行資料探勘:
候選人準備:收集多語種關鍵字列表,檢索用戶視頻,選取前一分鐘視頻用於處理。
人臉擷取&偵測:高幀率抽取視訊幀,使用MobileNet偵測人臉,確保視訊軌僅含單一說話者。
人臉辨識:預訓練人臉辨識器逐幀識別,確保音視頻片段來自同一人。
活動說話者偵測:利用唇動序列和音頻,透過多模態活動說話者偵測器輸出發聲片段,混疊偵測去除多說話人片段。
為提高資料準確率,也引入了集內人臉辨識器的旁路步驟,透過粗略人臉擷取、人臉驗證、人臉取樣和訓練,將準確率從72%提高到92%。
VoxBlink2也開源了不同大小的聲紋模型,包括基於ResNet的2D卷積模型和基於ECAPA-TDNN的時序模型,以及基於Simple Attention Module的超大模型ResNet293。這些模型在Vox1-O資料集上經過後處理後可達0.17%的EER和0.006%的minDCF。
資料集網站: https://VoxBlink2.github.io
資料集下載方式: https://github.com/VoxBlink2/ScriptsForVoxBlink2
元檔案與模型: https://drive.google.com/drive/folders/1lzumPsnl5yEaMP9g2bFbSKINLZ-QRJVP
論文地址: https://arxiv.org/abs/2407.11510
總之,VoxBlink2資料集的開源為語音辨識和聲紋辨識領域的研究提供了強大的助力,期待其在未來的應用中發揮更大的作用。 Downcodes小編將持續關注該資料集的後續發展和應用。