Лаборатория Alibaba Damo Academy Tongyi открыла исходный код технологии обработки речи под названием ClearerVoice-Studio, целью которой является улучшение качества и разборчивости речи, а также решение проблем разборчивости речи, вызванных шумом окружающей среды, реверберацией и помехами оборудования. Эта технология объединяет такие функции, как улучшение речи, разделение речи, извлечение аудио и видео динамиков, а также использует передовые алгоритмы глубокого обучения в комплексной области, чтобы значительно улучшить эффективность снижения и разделения речевого шума, максимально сохранить четкость речи и при этом в то же время искажение голоса сведено к минимуму. В число его основных моделей входят модель FRCRN, занявшая второе место в конкурсе IEEE/INTER Speech DNS Challenge 2022 года, а также серия моделей MossFormer, которые хорошо зарекомендовали себя в задачах разделения речи, предоставляя разработчикам и исследователям мощные инструменты обработки речи.
Лаборатория Tongyi Академии Дамо Alibaba недавно объявила, что откроет исходный код технологии обработки речи под названием ClearerVoice-Studio, целью которой является улучшение качества и разборчивости речи. С широким применением голосовых технологий качество голоса привлекает все больше и больше внимания, особенно в условиях шума окружающей среды, реверберации и помех оборудования, потребность в технологии обработки голоса становится все более актуальной.
ClearerVoice-Studio объединяет такие функции, как улучшение речи, разделение речи, а также извлечение аудио и видео динамиков. За счет интеграции сложных алгоритмов глубокого обучения она значительно повышает эффективность подавления и разделения речевого шума. Эта технология максимально устраняет фоновый шум, сохраняя разборчивость речи и сводя к минимуму искажения речи.
Основные модели и алгоритмы ClearerVoice-Studio включают модель FRCRN, занявшую второе место в конкурсе IEEE/INTER Speech DNS Challenge 2022 года, а также серию моделей MossFormer, которые хорошо зарекомендовали себя в задачах разделения речи. Модель улучшения речи 48 кГц, основанная на MossFormer2, значительно снижает искажения речи, одновременно эффективно подавляя шум.
Alibaba Tongyi Lab надеется предоставить разработчикам, исследователям и предприятиям мощные инструменты обработки голоса через платформу ClearerVoice-Studio, чтобы помочь во внедрении инновационных приложений. Пользователи могут протестировать демонстрацию онлайн, подготовить речевой файл, содержащий шум, загрузить его на назначенную страницу, обработать одним щелчком мыши и прослушать онлайн или загрузить результаты обработки и мгновенно получить чистое качество звука и превосходный эффект шумоподавления.
Репозиторий GitHub: https://github.com/modelscope/ClearerVoice-Studio.
Демонстрация онлайн-опыта: https://huggingface.co/spaces/alibabasglab/ClearVoice
ClearerVoice-Studio предоставляет удобный онлайн-интерфейс и хранилище GitHub, позволяющие пользователям быстро приступить к работе. Открытый исходный код этой технологии будет способствовать прогрессу и применению технологий обработки речи и принесет инновации в большее количество областей, связанных с речью. Мы с нетерпением ожидаем более широких сценариев применения в будущем.