En los últimos años, la tecnología de generación de texto a audio se ha desarrollado rápidamente, inyectando nueva vitalidad al campo de la inteligencia artificial. Este artículo se centrará en un nuevo modelo llamado TANGOFLUX, que muestra ventajas impresionantes en velocidad y eficiencia y aporta nuevos avances a la investigación y aplicación de la tecnología de generación de audio de texto. El modelo TANGOFLUX no solo se genera rápidamente, sino que también tiene un buen rendimiento en términos de calidad de audio y diversidad de efectos de sonido. Su característica de código abierto es más propicia para el desarrollo conjunto de la academia y la industria.
En el campo de la inteligencia artificial, la tecnología de generación de audio y texto se está convirtiendo gradualmente en un punto de investigación. Recientemente, los investigadores han lanzado un nuevo modelo llamado TANGOFLUX, que tiene un excelente rendimiento y eficiencia.
TANGOFLUX es un modelo eficiente de generación de texto a audio con 515 millones de parámetros que puede generar audio de 44,1 kHz de hasta 30 segundos en sólo 3,7 segundos. Esta velocidad hace que su rendimiento en una sola GPU A40 sea muy bueno.
La característica principal de TANGOFLUX es que puede generar varios efectos de sonido, como cantos de pájaros, silbidos, explosiones, etc. También admite la generación de música, pero el efecto no es tan ideal.
Un desafío importante en los modelos generativos de texto a audio es cómo crear pares preferidos. A diferencia de los modelos de lenguaje grande (LLM), los modelos de generación de texto a audio carecen de mecanismos de recompensa verificables o respuestas estándar de oro. Para resolver este problema, el equipo de investigación propuso un nuevo marco llamado Optimización de preferencias clasificadas CLAP (CRPO). El marco mejora el rendimiento de alineación de los modelos de generación de texto a audio generando y optimizando de forma iterativa datos de preferencias. Las investigaciones muestran que los datos de preferencias de audio generados con CRPO superan a las alternativas existentes.
A través de este marco, TANGOFLUX logra un desempeño líder en múltiples puntos de referencia objetivos y subjetivos. Además, el equipo de investigación también decidió abrir el código fuente de todos los códigos y modelos para respaldar la investigación de más personas sobre la generación de audio de texto. Para escenarios de aplicación que requieren generación de audio, TANGOFLUX es sin duda un avance tecnológico importante.
En términos de efectos prácticos, TANGOFLUX supera a otros modelos en calidad de generación de audio, mostrando sonidos de eventos más claros, mejor reproducción de secuencias de eventos y mayor calidad de audio. Al comparar múltiples ejemplos, los usuarios pueden sentir intuitivamente las ventajas de TANGOFLUX en la generación de audio.
Palabra rápida: Los melodiosos silbidos humanos y el canto natural de los pájaros coexisten armoniosamente, y el efecto resultante es el siguiente:
Con la llegada de esta nueva tecnología, las perspectivas de aplicación de la generación de texto a audio son cada vez más amplias y puede desempeñar un papel importante en la producción de cine y televisión, efectos de sonido de juegos y otros campos en el futuro.
Entrada del proyecto: https://tangoflux.github.io/
Reflejos:
TANGOFLUX es un modelo eficiente de generación de audio de texto que puede generar 30 segundos de audio de alta calidad en 3,7 segundos.
Se propone el marco de optimización de preferencias clasificadas CLAP (CRPO) para optimizar el rendimiento del modelo y los datos de preferencia de audio.
Todos los códigos y modelos han sido de código abierto, con el objetivo de promover la investigación y aplicación de la generación de audio de texto.
Con todo, la aparición del modelo TANGOFLUX marca un progreso significativo en la tecnología de generación de texto a audio. Su eficiencia, alta calidad y características de código abierto promoverán un mayor desarrollo en este campo y traerán aplicaciones más innovadoras a diversas industrias. Esperamos aplicaciones más amplias y una optimización y actualización continua de TANGOFLUX en el futuro.