Relatórios do editor de downcodes: A Universidade Johns Hopkins e o Tencent AI Lab desenvolveram em conjunto um modelo inovador de geração de texto para áudio chamado EzAudio. Seus recursos de conversão de áudio eficientes e de alta qualidade marcam o campo da inteligência artificial e da tecnologia de áudio. EzAudio usa tecnologia inovadora de espaço latente de forma de onda de áudio, combinada com tecnologias avançadas como AdaLN-SOLA, para superar os modelos de código aberto existentes em avaliações objetivas e subjetivas. O código-fonte aberto, o conjunto de dados e os pontos de verificação do modelo do modelo são disponibilizados publicamente para incentivar novas pesquisas e aplicações.
O EzAudio funciona explorando o espaço latente das formas de onda de áudio em vez dos espectrogramas tradicionais, uma inovação que permite trabalhar em alta resolução temporal sem a necessidade de um vocoder neural adicional.
A arquitetura do EzAudio, chamada EzAudio-DiT (Diffusion Transformer), utiliza uma série de inovações tecnológicas para melhorar o desempenho e a eficiência. Isso inclui uma nova tecnologia de normalização de camada adaptativa AdaLN-SOLA, conexões de salto longo e tecnologias avançadas de codificação de posição, como RoPE (incorporação de posição rotacionada).
Os pesquisadores dizem que as amostras de áudio geradas pelo EzAudio são tão realistas que tanto as avaliações objetivas quanto as subjetivas superam os modelos de código aberto existentes.
Atualmente, o mercado de geração de áudio com IA está crescendo rapidamente. Empresas conhecidas como a ElevenLabs lançaram recentemente um aplicativo iOS para conversão de texto em fala, mostrando forte interesse do consumidor em ferramentas de áudio de IA. Ao mesmo tempo, gigantes da tecnologia como a Microsoft e o Google também estão aumentando o investimento em tecnologia de simulação de voz de IA.
De acordo com as previsões do Gartner, até 2027, 40% das soluções generativas de IA serão multimodais, combinando as capacidades de texto, imagens e áudio, o que significa que modelos de geração de áudio de alta qualidade como o EzAudio provavelmente continuarão a evoluir. papel no campo da IA.
A equipe EzAudio disponibilizou publicamente seu código, conjuntos de dados e pontos de verificação de modelo, enfatizando a transparência e incentivando mais pesquisas nesta área.
Os pesquisadores acreditam que o EzAudio pode ter aplicações além da geração de efeitos sonoros, envolvendo áreas como fala e produção musical. À medida que a tecnologia continua a avançar, espera-se que seja amplamente utilizada em indústrias como entretenimento, mídia, serviços auxiliares e assistentes virtuais.
demonstração: https://huggingface.co/spaces/OpenSound/EzAudio
Entrada do projeto: https://github.com/haidog-yaqub/EzAudio?tab=readme-ov-file
Destaque:
EzAudio é um novo modelo de geração de texto para áudio lançado pela Universidade Johns Hopkins em colaboração com a Tencent, marcando um grande avanço na tecnologia de áudio.
? Através de arquitetura e tecnologia inovadoras, as amostras de áudio geradas por este modelo são de qualidade superior aos modelos de código aberto existentes e têm amplo potencial de aplicação.
À medida que a tecnologia se desenvolve, questões de uso ético e responsável vêm gradualmente à tona, e o código de pesquisa pública da EzAudio também oferece amplas oportunidades para exames futuros de riscos e benefícios.
O código aberto e o alto desempenho do EzAudio proporcionam vantagens significativas no campo da geração de áudio por IA, e suas perspectivas futuras de aplicação são amplas, mas também precisa prestar atenção aos seus impactos éticos e sociais. O editor do Downcodes continuará atento ao progresso e aplicação desta tecnologia.