Downcodes의 편집자는 다음과 같이 보고했습니다. 우한 대학, 중국 모바일 Jiutian 인공 지능 팀 및 Duke Kunshan 대학은 YouTube 데이터를 기반으로 하는 거대한 오디오 및 비디오 화자 인식 데이터 세트 VoxBlink2를 오픈 소스화하기 위해 협력했습니다. 이 데이터 세트에는 110,000명 이상의 YouTube 사용자가 제공하는 거의 1,000만 개에 달하는 고품질 오디오 클립을 포함하는 110,000시간 이상의 오디오 및 비디오 데이터가 포함되어 있으며, 그 규모는 전례가 없으며 음성 인식 분야 연구에 귀중한 리소스를 제공합니다. VoxBlink2의 오픈 소스는 대형 성문 모델의 교육 및 개발을 촉진하고 이 분야의 기술 진보를 촉진하는 것을 목표로 합니다.
우한대학교, 중국 모바일 Jiutian 인공 지능 팀 및 Duke Kunshan University는 YouTube 데이터를 기반으로 110,000시간 이상의 오디오 및 비디오 화자 인식 데이터 세트 VoxBlink2를 오픈 소스로 제공했습니다. 이 데이터 세트에는 9,904,382개의 고품질 오디오 클립과 YouTube 사용자 111,284명의 해당 비디오 클립이 포함되어 있으며, 현재 공개적으로 사용 가능한 오디오 및 비디오 화자 인식 데이터 세트 중 최대 규모입니다. 데이터 세트의 출시는 오픈 소스 음성 자료를 풍부하게 하고 대규모 성문 모델 훈련을 지원하는 것을 목표로 합니다.
VoxBlink2 데이터 세트는 다음 단계를 통해 데이터 마이닝됩니다.
후보자 준비: 다국어 키워드 목록 수집, 사용자 동영상 검색, 처리할 이전 1분 동영상 선택
얼굴 추출 및 감지: 높은 프레임 속도로 비디오 프레임을 추출하고, MobileNet을 사용하여 얼굴을 감지하고, 비디오 트랙에 화자가 한 명만 포함되어 있는지 확인합니다.
얼굴 인식: 미리 훈련된 얼굴 인식기는 프레임별로 인식하여 오디오와 비디오 클립이 동일한 사람에게서 나온 것인지 확인합니다.
활성 화자 감지: 다중 모드 활성 화자 감지기는 입술 움직임 시퀀스와 오디오를 사용하여 음성 세그먼트를 출력하고 앨리어싱 감지는 다중 화자 세그먼트를 제거합니다.
데이터 정확도를 높이기 위해 내장된 얼굴 인식기의 우회 단계도 도입해 대략적인 얼굴 추출, 얼굴 검증, 얼굴 샘플링 및 훈련을 통해 정확도를 72%에서 92%로 높였습니다.
VoxBlink2는 또한 ResNet 기반의 2D 컨볼루션 모델과 ECAPA-TDNN 기반의 시간 모델, Simple Attention Module 기반의 초대형 모델 ResNet293을 포함하여 다양한 크기의 오픈 소스 성문 모델을 제공합니다. 이러한 모델은 Vox1-O 데이터 세트에 대한 사후 처리 후 0.17%의 EER과 0.006%의 minDCF를 달성할 수 있습니다.
데이터 세트 웹사이트 : https://VoxBlink2.github.io
데이터셋 다운로드 방법 : https://github.com/VoxBlink2/ScriptsForVoxBlink2
메타 파일 및 모델: https://drive.google.com/drive/folders/1lzumPsnl5yEaMP9g2bFbSKINLZ-QRJVP
논문 주소 : https://arxiv.org/abs/2407.11510
즉, VoxBlink2 데이터 세트의 오픈 소스는 음성 인식 및 성문 인식 분야의 연구에 강력한 지원을 제공하며 향후 응용 분야에서 더 큰 역할을 할 것으로 기대합니다. 다운코드 편집자는 이 데이터 세트의 후속 개발 및 적용에 계속 주의를 기울일 것입니다.