ByteDance ha lanzado una nueva herramienta de creación musical, Seed-Music, que es como un mago musical que puede generar música de alta calidad basada en descripciones de texto, referencias de audio, partituras musicales e incluso indicaciones de voz. Seed-Music combina modelos de lenguaje autorregresivos y modelos de difusión para brindar a los usuarios un control sin precedentes sobre la creación musical, ya sea letra y música, adaptación de melodía o voz para cantar, Seed-Music puede manejarlo fácilmente. El editor de Downcodes te llevará a conocer más sobre este increíble modelo de generación musical.
Recientemente, ByteDance lanzó una nueva herramienta de creación musical llamada Seed-Music. Este modelo mágico de generación de música le permite generar música fácilmente a través de una variedad de métodos de entrada (como descripciones de texto, referencias de audio, partituras musicales e incluso indicaciones de voz. ¡Es como tener un mago de la música!
Seed-Music combina modelos de lenguaje autorregresivos y modelos de difusión no solo para generar obras musicales de alta calidad, sino que también le permite controlar con precisión los detalles de la música. Tanto si quieres que la letra acompañe a la música como si quieres adaptar la melodía, aquí no hay problema. Incluso puedes cargar un clip de voz corto y el sistema lo convertirá automáticamente en una canción completa, lo cual es conveniente y eficiente.
El poderoso Seed-Music no solo admite la generación de música vocal e instrumental, sino que también incluye una serie de funciones como síntesis de voz cantada, conversión de voz cantada y edición de música, que pueden satisfacer las necesidades de diferentes usuarios. Puedes generar pops a través de descripciones de texto simples y también puedes ajustar el estilo de la música a través de indicaciones de audio, lo cual es realmente refrescante.
Lo que es más interesante es que la arquitectura de Seed-Music se divide en tres módulos: módulo de aprendizaje de representación, módulo de generación y módulo de renderizado, que trabajan juntos como una banda para generar música de alta calidad a partir de entradas multimodales.
El módulo de aprendizaje de representación comprime la señal de audio original en tres representaciones intermedias, adecuadas para diferentes tareas de generación y edición de música. El módulo de generación convierte la entrada del usuario en representación musical a través de modelos autorregresivos y modelos de difusión. El módulo de renderizado final es responsable de convertir estas representaciones intermedias en audio de alta calidad que tus oídos puedan disfrutar.
Para garantizar la calidad de la música, Seed-Music utiliza una variedad de tecnologías: el modelo de lenguaje autorregresivo genera gradualmente símbolos de audio, el modelo de difusión aclara la música mediante la eliminación de ruido y el vocodificador traduce estos "códigos" musicales a alta fidelidad legible. sonido reproducido.
También es muy interesante el proceso de formación de Seed-Music, dividido en tres etapas: preformación, puesta a punto y postformación. A través de datos musicales a gran escala, el modelo adquiere capacidades básicas, luego mejora el desempeño de tareas específicas mediante ajustes y, finalmente, optimiza continuamente los resultados generados mediante el aprendizaje por refuerzo.
Dirección del proyecto: https://team.doubao.com/en/special/seed-music
Sin duda, la aparición de Seed-Music ha traído nuevas posibilidades a la creación musical. Su operación conveniente y sus potentes funciones reducirán en gran medida el umbral de la creación musical, permitiendo que más personas experimenten el placer de la creación musical. ¡Esperamos que Seed-Music traiga más sorpresas en el futuro!