Informes del editor de Downcodes: La Universidad Johns Hopkins y Tencent AI Lab desarrollaron conjuntamente un innovador modelo de generación de texto a audio llamado EzAudio. Sus capacidades de conversión de audio eficientes y de alta calidad marcan un gran progreso en el campo de la inteligencia artificial y la tecnología de audio. EzAudio utiliza una innovadora tecnología de espacio latente de forma de onda de audio, combinada con tecnologías avanzadas como AdaLN-SOLA, para superar los modelos de código abierto existentes en evaluaciones tanto objetivas como subjetivas. El código fuente abierto, el conjunto de datos y los puntos de control del modelo se ponen a disposición del público para fomentar una mayor investigación y aplicación.
EzAudio funciona explotando el espacio latente de las formas de onda de audio en lugar de los espectrogramas tradicionales, una innovación que le permite trabajar con alta resolución temporal sin la necesidad de un codificador de voz neuronal adicional.
La arquitectura de EzAudio, llamada EzAudio-DiT (Transformador de difusión), utiliza una serie de innovaciones tecnológicas para mejorar el rendimiento y la eficiencia. Estos incluyen una nueva tecnología de normalización de capa adaptativa AdaLN-SOLA, conexiones de salto largo y tecnologías avanzadas de codificación de posición como RoPE (incrustación de posición rotada).
Los investigadores dicen que las muestras de audio generadas por EzAudio son tan realistas que tanto las evaluaciones objetivas como subjetivas superan a los modelos de código abierto existentes.
Actualmente, el mercado de generación de audio mediante IA está creciendo rápidamente. Empresas conocidas como ElevenLabs lanzaron recientemente una aplicación iOS para la conversión de texto a voz, lo que muestra un gran interés de los consumidores en las herramientas de audio de IA. Al mismo tiempo, gigantes tecnológicos como Microsoft y Google también están aumentando la inversión en tecnología de simulación de voz mediante IA.
Según las predicciones de Gartner, para 2027, el 40% de las soluciones de IA generativa serán multimodales, combinando las capacidades de texto, imágenes y audio, lo que significa que es probable que los modelos de generación de audio de alta calidad como EzAudio sigan evolucionando. papel en el campo de la IA.
El equipo de EzAudio ha puesto a disposición del público su código, conjuntos de datos y puntos de control de modelos, enfatizando la transparencia y fomentando más investigaciones en esta área.
Los investigadores creen que EzAudio puede tener aplicaciones más allá de la generación de efectos de sonido, involucrando áreas como el habla y la producción musical. A medida que la tecnología continúa avanzando, se espera que se utilice ampliamente en industrias como el entretenimiento, los medios, los servicios auxiliares y los asistentes virtuales.
demostración: https://huggingface.co/spaces/OpenSound/EzAudio
Entrada del proyecto: https://github.com/haidog-yaqub/EzAudio?tab=readme-ov-file
Destacar:
EzAudio es un nuevo modelo de generación de texto a audio lanzado por la Universidad Johns Hopkins en colaboración con Tencent, lo que marca un avance importante en la tecnología de audio.
? A través de una arquitectura y tecnología innovadoras, las muestras de audio generadas por este modelo son superiores en calidad a los modelos de código abierto existentes y tienen un amplio potencial de aplicación.
A medida que la tecnología se desarrolla, las cuestiones de uso ético y responsable pasan gradualmente a primer plano, y el código de investigación pública de EzAudio también brinda amplias oportunidades para exámenes futuros de riesgos y beneficios.
El código abierto y el alto rendimiento de EzAudio le otorgan ventajas significativas en el campo de la generación de audio mediante IA, y sus perspectivas de aplicación futura son amplias, pero también debe prestar atención a sus impactos éticos y sociales. El editor de Downcodes seguirá atento a los avances y aplicaciones de esta tecnología.