O Laboratório Tongyi da Alibaba Damo Academy abriu o código-fonte de uma tecnologia de processamento de fala chamada ClearerVoice-Studio, que visa melhorar a qualidade e inteligibilidade da fala e resolver desafios de inteligibilidade da fala causados por ruído ambiental, reverberação e captação de equipamentos. Esta tecnologia integra funções como aprimoramento de fala, separação de fala e extração de alto-falante de áudio e vídeo, e adota algoritmos avançados de aprendizagem profunda de domínio complexo para melhorar significativamente o desempenho da redução e separação de ruído de fala, reter a clareza da fala ao máximo e, ao mesmo tempo, ao mesmo tempo, a distorção da voz é minimizada. Seus modelos principais incluem o modelo FRCRN que conquistou o segundo lugar geral no Desafio DNS de Fala IEEE/INTER de 2022, e a série de modelos MossFormer que teve um bom desempenho em tarefas de separação de fala, fornecendo aos desenvolvedores e pesquisadores ferramentas poderosas de processamento de fala.
O Laboratório Tongyi da Alibaba Damo Academy anunciou recentemente que abrirá o código-fonte de uma tecnologia de processamento de fala chamada ClearerVoice-Studio, que visa melhorar a qualidade e a inteligibilidade da fala. Com a ampla aplicação da tecnologia de voz, a qualidade da voz tem atraído cada vez mais atenção. Especialmente na presença de ruído ambiental, reverberação e captação de equipamentos, a demanda por tecnologia de processamento de voz tornou-se cada vez mais urgente.
ClearerVoice-Studio integra funções como aprimoramento de fala, separação de fala e extração de alto-falante de áudio e vídeo. Ao integrar algoritmos de aprendizado profundo de domínio complexo, melhora muito o desempenho da redução e separação de ruído de fala. Esta tecnologia elimina ao máximo o ruído de fundo, preservando a inteligibilidade da fala e ao mesmo tempo mantendo a distorção da fala ao mínimo.
Os principais modelos e algoritmos do ClearerVoice-Studio incluem o modelo FRCRN que conquistou o segundo lugar geral no Desafio DNS de Fala IEEE/INTER de 2022, e a série de modelos MossFormer que teve bom desempenho em tarefas de separação de fala. O modelo de aprimoramento de fala de 48kHz baseado em MossFormer2 reduz significativamente a distorção da fala enquanto suprime eficazmente o ruído.
O Alibaba Tongyi Lab espera fornecer aos desenvolvedores, pesquisadores e empresas ferramentas poderosas de processamento de voz por meio da plataforma ClearerVoice-Studio para ajudar a implementar aplicativos inovadores. Os usuários podem experimentar a demonstração on-line, preparar um arquivo de fala contendo ruído, carregá-lo em uma página designada, processá-lo com um clique e ouvi-lo on-line ou baixar os resultados do processamento e obter instantaneamente uma qualidade de som nítida e excelente efeito de redução de ruído.
Repositório GitHub: https://github.com/modelscope/ClearerVoice-Studio
Demonstração de experiência online: https://huggingface.co/spaces/alibabasglab/ClearVoice
ClearerVoice-Studio fornece uma experiência online conveniente e um armazém GitHub para facilitar aos usuários começarem rapidamente. O código aberto desta tecnologia promoverá o progresso e a aplicação da tecnologia de processamento de fala e trará inovação para campos mais relacionados à fala. Estamos ansiosos para ver seus cenários de aplicação mais amplos no futuro.