ByteDance lançou uma nova ferramenta de criação musical, Seed-Music, que é como um mágico musical que pode gerar música de alta qualidade com base em descrições de texto, referências de áudio, partituras musicais e até comandos de voz. Seed-Music combina modelos de linguagem autorregressivos e modelos de difusão para dar aos usuários um controle sem precedentes sobre a criação de música, seja letra e música, adaptação de melodia ou voz para canto, o Seed-Music pode lidar facilmente com isso. O editor do Downcodes vai te levar para conhecer mais sobre esse incrível modelo de geração musical.
Recentemente, a ByteDance lançou uma nova ferramenta de criação musical chamada Seed-Music. Este modelo mágico de geração de música permite gerar música facilmente por meio de uma variedade de métodos de entrada (como descrições de texto, referências de áudio, partituras musicais e até comandos de voz).
Seed-Music combina modelos de linguagem autorregressivos e modelos de difusão não apenas para gerar obras musicais de alta qualidade, mas também permite controlar com precisão os detalhes da música. Quer você queira que a letra acompanhe a música ou adapte a melodia, não há problema aqui. Você pode até fazer upload de um pequeno clipe de voz e o sistema irá convertê-lo automaticamente em uma música completa, o que é conveniente e eficiente.
O poderoso Seed-Music não só suporta a geração de música vocal e instrumental, mas também inclui uma série de funções como síntese de voz cantada, conversão de voz cantada e edição musical, que podem atender às necessidades de diferentes usuários. Você pode gerar pops por meio de descrições de texto simples e também ajustar o estilo da música por meio de avisos de áudio, o que é realmente revigorante.
O que é mais interessante é que a arquitetura do Seed-Music é dividida em três módulos: módulo de aprendizagem de representação, módulo de geração e módulo de renderização, que funcionam juntos como uma banda para gerar música de alta qualidade a partir de entradas multimodais.
O módulo de aprendizagem de representação comprime o sinal de áudio original em três representações intermediárias, adequadas para diferentes tarefas de geração e edição de música. O módulo de geração converte a entrada do usuário em representação musical por meio de modelos autorregressivos e modelos de difusão. O módulo de renderização final é responsável por transformar essas representações intermediárias em áudio de alta qualidade que seus ouvidos possam desfrutar.
Para garantir a qualidade da música, o Seed-Music utiliza uma variedade de tecnologias: o modelo de linguagem autoregressivo gera gradualmente símbolos de áudio, o modelo de difusão torna a música mais clara através da remoção de ruído e o vocoder traduz esses "códigos" musicais em alta fidelidade legível. som reproduzido.
O processo de treinamento do Seed-Music também é muito interessante, dividido em três etapas: pré-treinamento, ajuste fino e pós-treinamento. Através de dados musicais em grande escala, o modelo adquire capacidades básicas, depois melhora o desempenho de tarefas específicas através do ajuste fino e, finalmente, otimiza continuamente os resultados gerados através da aprendizagem por reforço.
Endereço do projeto: https://team.doubao.com/en/special/seed-music
O surgimento do Seed-Music trouxe, sem dúvida, novas possibilidades para a criação musical. Sua operação conveniente e funções poderosas reduzirão enormemente o limiar da criação musical, permitindo que mais pessoas experimentem a alegria da criação musical. Esperamos que o Seed-Music traga mais surpresas no futuro!