Nos últimos anos, a tecnologia de geração de texto para áudio desenvolveu-se rapidamente, injetando nova vitalidade no campo da inteligência artificial. Este artigo se concentrará em um novo modelo chamado TANGOFLUX, que apresenta vantagens impressionantes em velocidade e eficiência e traz novos avanços para a pesquisa e aplicação de tecnologia de geração de áudio de texto. O modelo TANGOFLUX não é apenas rápido de gerar, mas também tem um bom desempenho em termos de qualidade de áudio e diversidade de efeitos sonoros. Seu recurso de código aberto é mais propício ao desenvolvimento conjunto da academia e da indústria.
No campo da inteligência artificial, a tecnologia de geração de texto e áudio está gradualmente se tornando um ponto importante de pesquisa. Recentemente, pesquisadores lançaram um novo modelo denominado TANGOFLUX, que apresenta excelente desempenho e eficiência.
TANGOFLUX é um modelo eficiente de geração de texto para áudio com 515 milhões de parâmetros que pode gerar áudio de 44,1kHz de até 30 segundos em apenas 3,7 segundos. Essa velocidade torna seu desempenho em uma única GPU A40 muito bom.
A principal característica do TANGOFLUX é que ele pode gerar diversos efeitos sonoros, como cantos de pássaros, assobios, explosões, etc. Também suporta a geração de música, mas o efeito não é tão ideal.
Um grande desafio nos modelos geradores de texto para áudio é como criar pares preferidos. Ao contrário dos grandes modelos de linguagem (LLMs), os modelos de geração de texto para áudio carecem de mecanismos de recompensa verificáveis ou de respostas padrão-ouro. Para resolver este problema, a equipe de pesquisa propôs uma nova estrutura chamada CLAP-Ranked Preference Optimization (CRPO). A estrutura melhora o desempenho de alinhamento de modelos de geração de texto para áudio, gerando e otimizando iterativamente dados de preferência. A pesquisa mostra que os dados de preferência de áudio gerados usando CRPO superam as alternativas existentes.
Através desta estrutura, a TANGOFLUX alcança desempenho líder em múltiplos benchmarks objetivos e subjetivos. Além disso, a equipe de pesquisa também decidiu abrir todos os códigos e modelos para apoiar a pesquisa de mais pessoas sobre geração de texto e áudio. Para cenários de aplicação que necessitam de geração de áudio, o TANGOFLUX é sem dúvida um importante avanço tecnológico.
Em termos de efeitos práticos, o TANGOFLUX supera outros modelos em qualidade de geração de áudio, exibindo sons de eventos mais claros, melhor reprodução de sequências de eventos e maior qualidade de áudio. Ao comparar vários exemplos, os usuários podem sentir intuitivamente as vantagens do TANGOFLUX na geração de áudio.
Palavra de alerta: Os melodiosos assobios humanos e o canto natural dos pássaros coexistem harmoniosamente, e o efeito resultante é o seguinte:
Com o advento desta nova tecnologia, as perspectivas de aplicação da geração de texto para áudio estão se tornando cada vez mais amplas e podem desempenhar um papel importante na produção de filmes e televisão, efeitos sonoros de jogos e outros campos no futuro.
Entrada do projeto: https://tangoflux.github.io/
Destaques:
TANGOFLUX é um modelo eficiente de geração de áudio de texto que pode gerar 30 segundos de áudio de alta qualidade em 3,7 segundos.
A estrutura CLAP-Ranked Preference Optimization (CRPO) é proposta para otimizar o desempenho do modelo e os dados de preferência de áudio.
Todos os códigos e modelos são de código aberto, visando promover a pesquisa e aplicação da geração de texto e áudio.
Em suma, o surgimento do modelo TANGOFLUX marca um progresso significativo na tecnologia de geração de texto para áudio. A sua eficiência, alta qualidade e recursos de código aberto promoverão um maior desenvolvimento neste campo e trarão aplicações mais inovadoras para diversas indústrias. Esperamos aplicações mais amplas e otimização e atualização contínuas do TANGOFLUX no futuro.