Downcodes の編集者は次のように報告しました。武漢大学、中国移動九天人工知能チーム、デューク昆山大学が協力して、YouTube データに基づく巨大なオーディオおよびビデオ話者認識データセット VoxBlink2 をオープンソース化しました。このデータ セットには、110,000 人を超える YouTube ユーザーからの 1,000 万近くの高品質オーディオ クリップをカバーする 110,000 時間以上のオーディオおよびビデオ データが含まれており、これは前例のない規模であり、音声認識分野の研究に貴重なリソースを提供します。 VoxBlink2 のオープンソースは、大規模な声紋モデルのトレーニングと開発を促進し、この分野の技術進歩を促進することを目的としています。
武漢大学、中国移動九天人工知能チーム、デューク昆山大学は、YouTube データに基づいた 110,000 時間以上のオーディオおよびビデオ話者認識データセット VoxBlink2 をオープンソース化しました。このデータセットには、YouTube 上の 111,284 ユーザーからの 9,904,382 個の高品質オーディオ クリップとそれに対応するビデオ クリップが含まれており、現在公開されている最大のオーディオおよびビデオの話者認識データセットです。データセットのリリースは、オープンソースの音声コーパスを強化し、大規模な声紋モデルのトレーニングをサポートすることを目的としています。
VoxBlink2 データセットは、次の手順でデータマイニングされます。
候補者の準備: 多言語キーワード リストを収集し、ユーザーのビデオを取得し、処理する前の 1 分間のビデオを選択します。
顔の抽出と検出: 高フレーム レートでビデオ フレームを抽出し、MobileNet を使用して顔を検出し、ビデオ トラックに 1 人の話者のみが含まれていることを確認します。
顔認識: 事前トレーニングされた顔認識機能がフレームごとに認識し、オーディオ クリップとビデオ クリップが同じ人物からのものであることを確認します。
アクティブ スピーカー検出: 唇の動きのシーケンスとオーディオを使用して、マルチモーダル アクティブ スピーカー検出器がボーカル セグメントを出力し、エイリアシング検出によりマルチスピーカー セグメントが除去されます。
データの精度を向上させるために、内蔵の顔認識装置のバイパス ステップも導入され、大まかな顔の抽出、顔の検証、顔のサンプリング、トレーニングを通じて精度が 72% から 92% に向上しました。
VoxBlink2 は、ResNet に基づく 2D 畳み込みモデルや ECAPA-TDNN に基づく時間モデル、Simple Attendee Module に基づく非常に大きなモデル ResNet293 など、さまざまなサイズの声紋モデルもオープンソース化しました。これらのモデルは、Vox1-O データセットの後処理後に、0.17% の EER と 0.006% の minDCF を達成できます。
データセットのウェブサイト: https://VoxBlink2.github.io
データセットのダウンロード方法: https://github.com/VoxBlink2/ScriptsForVoxBlink2
メタ ファイルとモデル: https://drive.google.com/drive/folders/1lzumPsnl5yEaMP9g2bFbSKINLZ-QRJVP
論文アドレス: https://arxiv.org/abs/2407.11510
つまり、VoxBlink2 データセットのオープンソースは、音声認識と声紋認識の分野の研究に強力な後押しを提供し、将来のアプリケーションでのより大きな役割が期待されます。 Downcodes の編集者は、このデータセットのその後の開発と応用に引き続き注目していきます。