Редактор Downcodes сообщил: Уханьский университет, команда искусственного интеллекта China Mobile Jiutian и Университет герцога Куньшаня совместно открыли исходный код огромного набора данных распознавания аудио- и видеодинамиков VoxBlink2 на основе данных YouTube. Этот набор данных содержит более 110 000 часов аудио- и видеоданных, охватывающих почти 10 миллионов высококачественных аудиоклипов от более чем 110 000 пользователей YouTube. Он беспрецедентен по масштабу и предоставляет ценные ресурсы для исследований в области распознавания речи. Открытый исходный код VoxBlink2 направлен на содействие обучению и разработке больших моделей голосовых отпечатков и содействие технологическому прогрессу в этой области.
Уханьский университет, группа искусственного интеллекта China Mobile Jiutian и Университет Дюка Куньшаня открыли в открытом доступе более 110 000 часов набора данных распознавания аудио- и видеодинамиков VoxBlink2 на основе данных YouTube. Этот набор данных содержит 9 904 382 высококачественных аудиоклипа и соответствующие им видеоклипы от 111 284 пользователей YouTube. В настоящее время это крупнейший общедоступный набор данных по распознаванию аудио- и видеодинамиков. Выпуск набора данных направлен на обогащение речевого корпуса с открытым исходным кодом и поддержку обучения больших моделей голосовых отпечатков.
Набор данных VoxBlink2 представляет собой данные, полученные с помощью следующих шагов:
Подготовка кандидатов: соберите многоязычные списки ключевых слов, извлеките пользовательские видео и выберите видео за предыдущую минуту для обработки.
Извлечение и распознавание лиц: извлекайте видеокадры с высокой частотой кадров, используйте MobileNet для обнаружения лиц и убедитесь, что видеодорожка содержит только один динамик.
Распознавание лиц: предварительно обученный распознаватель лиц распознает кадр за кадром, чтобы гарантировать, что аудио- и видеоклипы принадлежат одному и тому же человеку.
Обнаружение активного говорящего: используя последовательность движений губ и звук, мультимодальный детектор активного говорящего выводит голосовые сегменты, а обнаружение псевдонимов удаляет сегменты с несколькими говорящими.
Чтобы повысить точность данных, был также введен этап обхода встроенного распознавателя лиц, чтобы повысить точность с 72% до 92% за счет грубого извлечения лица, проверки лица, выборки лиц и обучения.
VoxBlink2 также имеет открытые исходные модели голосовых отпечатков разных размеров, включая 2D-модель свертки на основе ResNet и временную модель на основе ECAPA-TDNN, а также очень большую модель ResNet293 на основе Simple Attention Module. Эти модели могут достичь EER 0,17% и minDCF 0,006% после постобработки набора данных Vox1-O.
Веб-сайт набора данных : https://VoxBlink2.github.io.
Способ загрузки набора данных : https://github.com/VoxBlink2/ScriptsForVoxBlink2.
Метафайлы и модели: https://drive.google.com/drive/folders/1lzumPsnl5yEaMP9g2bFbSKINLZ-QRJVP.
Адрес статьи : https://arxiv.org/abs/2407.11510.
Короче говоря, открытый исходный код набора данных VoxBlink2 обеспечивает мощный импульс для исследований в области распознавания речи и голосовых отпечатков, и мы с нетерпением ожидаем его большей роли в будущих приложениях. Редактор Downcodes продолжит уделять внимание дальнейшему развитию и применению этого набора данных.