CoMoSVC: Tecnologia inovadora que converte a voz cantada de uma pessoa na voz cantada de outra pessoa

Autor：Eve Cole Data da Última Atualização：2025-01-21 11:48:02

A Universidade de Hong Kong e a Microsoft Research Asia colaboraram para desenvolver uma tecnologia inovadora de conversão de voz - CoMoSVC. A capacidade da tecnologia de transformar a voz cantada de uma pessoa na voz cantada de outra reside em sua essência, numa combinação inteligente de modelos de professores baseados na difusão e atributos de autoconsistência. Isso permite que o CoMoSVC alcance uma velocidade de processamento sem precedentes, ao mesmo tempo que garante uma conversão de áudio de alta qualidade, trazendo mudanças revolucionárias nas áreas de produção musical e processamento de áudio.

CoMoSVC, uma tecnologia inovadora desenvolvida em conjunto pela Universidade de Hong Kong e por pesquisadores da Microsoft Ásia, pode converter a voz cantada de uma pessoa na voz cantada de outra pessoa. Ele alcança um equilíbrio entre conversão de áudio de alta qualidade e velocidade de processamento rápida usando um modelo de professor baseado em difusão e propriedades de autoconsistência para conversão de som. Ao contrário do processo tradicional de amostragem iterativa, o CoMoSVC implementa amostragem em uma etapa, acelerando bastante o processamento e mantendo a conversão de alta qualidade. Esta tecnologia inovadora trará soluções mais eficientes e convenientes para conversão de áudio, proporcionando mais possibilidades de criação e expressão em áreas como a produção musical.

Com seus recursos eficientes e convenientes, espera-se que a tecnologia CoMoSVC seja amplamente utilizada na criação musical, síntese de fala e outras áreas, proporcionando aos usuários opções de processamento de áudio mais ricas e promovendo ainda mais o desenvolvimento e a inovação da tecnologia de áudio. O aumento de velocidade proporcionado pela sua tecnologia de amostragem de uma etapa também oferece novas possibilidades para processamento de áudio em tempo real.