Imagine poder generar música o efectos de sonido de alta calidad con sólo unos pocos zumbidos o ritmos. Esto ya no es un sueño lejano. Sketch2Sound, el resultado de una investigación innovadora de IA, logra una generación de audio de alta calidad combinando imitación de sonido e indicaciones de texto. Utiliza inteligentemente las tres señales de control clave de volumen, brillo y tono extraídas de la imitación de sonido, y las integra en el modelo de difusión potencial de texto a audio, guiando así a la IA para generar sonidos que cumplan requisitos específicos, aportando grandes beneficios al campo de creación sonora. cambios revolucionarios.
La tecnología central de Sketch2Sound es su capacidad para extraer tres señales de control clave que varían en el tiempo de cualquier imitación de sonido (como una imitación vocal o un sonido de referencia): volumen, brillo (centroide espectral) y tono. Una vez codificadas estas señales de control, se agregan al modelo de difusión subyacente utilizado para la generación de texto a sonido, guiando así a la IA para generar sonidos que cumplan con requisitos específicos.
Lo más impresionante de esta tecnología es su ligereza y eficiencia. Sketch2Sound se basa en el modelo de difusión latente de texto a audio existente, que requiere solo 40.000 pasos de ajuste fino y solo una capa lineal para cada señal de control, lo que lo hace más conciso y eficiente que otros métodos (como ControlNet). Para permitir que el modelo sintetice a partir de imitaciones de sonido similares a "bosquejos", los investigadores también aplicaron un filtro de mediana estocástico a la señal de control durante el entrenamiento, permitiéndole adaptarse a señales de control con características temporales flexibles. Los resultados experimentales muestran que Sketch2Sound no solo puede sintetizar sonidos que se ajustan a la señal de control de entrada, sino que también cumple con las indicaciones de texto y logra una calidad de audio comparable a la línea base de texto sin formato.
Sketch2Sound ofrece a los artistas sonoros una nueva forma de crear. Pueden explotar la flexibilidad semántica de las indicaciones textuales, combinada con la expresividad y precisión de los gestos vocales o las imitaciones, para crear composiciones sonoras sin precedentes. Esto es similar a los artistas tradicionales de Foley que crean efectos de sonido manipulando objetos, mientras que Sketch2Sound guía la generación de sonido a través de la imitación del sonido, aportando un toque "humanizado" a la creación de sonido y mejorando el valor artístico de las obras sonoras.
Sketch2Sound puede superar sus limitaciones en comparación con los métodos tradicionales de interacción de texto a audio. En el pasado, los diseñadores de sonido necesitaban dedicar mucho tiempo a ajustar las características temporales de los sonidos generados para sincronizarlos con los efectos visuales. Sketch2Sound puede lograr esta sincronización de forma natural mediante la imitación del sonido, y no se limita a la imitación de la voz humana, cualquier tipo de sonido. La imitación puede utilizarse para impulsar este modelo generativo.
Los investigadores también desarrollaron una técnica para ajustar los detalles temporales de la señal de control aplicando filtros medianos de diferentes tamaños de ventana durante el entrenamiento. Esto permite a los artistas sonoros controlar qué tan bien el modelo generativo se adhiere a la precisión de sincronización de la señal de control, mejorando así la calidad de los sonidos que son difíciles de imitar perfectamente. En aplicaciones prácticas, los usuarios pueden encontrar un equilibrio entre cumplir estrictamente con la imitación del sonido y garantizar la calidad del audio ajustando el tamaño del filtro mediano.
El principio de funcionamiento de Sketch2Sound es extraer primero tres señales de control de volumen, centroide del espectro y tono de la señal de audio de entrada. Luego, estas señales de control se alinean con las señales latentes en el modelo de texto a sonido, y el modelo de difusión latente se sintoniza a través de una capa de proyección lineal simple para generar finalmente el sonido deseado. Los resultados experimentales muestran que condicionar el modelo a través del control de la señal que varía en el tiempo puede mejorar significativamente el cumplimiento de esta señal, al tiempo que tiene un impacto mínimo en la calidad del audio y el cumplimiento del texto.
En particular, los investigadores también descubrieron que las señales de control pueden manipular la semántica de las señales generadas. Por ejemplo, cuando se utiliza el mensaje de texto "ambiente de bosque", si se agregan ráfagas de volumen aleatorias a la imitación del sonido, el modelo puede sintetizar cantos de pájaros en estas ráfagas de volumen sin el mensaje adicional "pájaros", lo que indica que el modelo ha aprendido la correlación entre Estallidos de sonoridad y presencia de pájaros.
Por supuesto, Sketch2Sound tiene algunas limitaciones, como el hecho de que el centro de control de masas puede incorporar los tonos de la sala modelados por los sonidos de entrada en el audio generado, posiblemente porque los tonos de la sala están codificados por el centro de masa cuando hay No hay eventos de sonido en el audio de entrada.
Considerándolo todo, Sketch2Sound es un poderoso modelo de sonido generativo que puede generar sonidos a través de indicaciones de texto y controles que varían en el tiempo (volumen, brillo, tono). Puede generar sonidos mediante imitación de sonido y curvas de control de "boceto", y es liviano y eficiente. Proporciona a los artistas sonoros una herramienta expresiva, controlable y basada en gestos que puede generar sonidos con sincronización flexible. Cualquier sonido con características únicas tendrá una amplia amplitud. perspectivas de aplicación en los campos de la creación musical y el diseño de sonido de juegos en el futuro.
Dirección del artículo: https://arxiv.org/pdf/2412.08550
La aparición de Sketch2Sound presagia una nueva era en el campo de la creación sonora. Proporciona a los artistas libertad y posibilidades creativas sin precedentes, y también aporta un espacio de imaginación ilimitado a la música, los juegos, las películas y otros campos. Creo que en un futuro próximo, esta tecnología se utilizará más ampliamente y nos traerá un mundo sonoro más colorido.