O editor do Downcodes aprendeu que pesquisadores da Escola de Ciência de Dados da Universidade Musashino fizeram recentemente um grande avanço e desenvolveram um novo algoritmo chamado AMT-APC, que pode gerar música de piano automaticamente com mais precisão. Esta tecnologia é baseada no modelo de Transcrição Automática de Música (AMT). Por meio de um ajuste fino inteligente, melhora significativamente o nível de qualidade do som e a expressividade da música de piano gerada, superando a fidelidade da qualidade do som e os problemas de desempenho da geração anterior de música de piano automática. gargalos, como energia insuficiente. A inovação deste algoritmo reside na sua estratégia única de duas etapas: primeiro, o modelo AMT pré-treinado é usado para capturar vários detalhes sonoros na música e, em seguida, é ajustado através de um conjunto de dados emparelhados contendo o áudio da música original e o piano. arquivos MIDI de performance O resultado é uma versão de performance de piano mais próxima do estilo da música original. Além disso, os pesquisadores também introduziram o conceito de “vetor de estilo” para melhorar ainda mais a expressividade da música de piano gerada.
Por muito tempo, a tecnologia para gerar automaticamente música de piano enfrentou o desafio da insuficiente fidelidade e expressividade da qualidade do som. Os modelos existentes muitas vezes só conseguem gerar melodias e ritmos simples e não conseguem capturar os ricos detalhes e emoções das canções originais.
O algoritmo AMT-APC adota uma abordagem diferente. Ele primeiro usa um modelo AMT pré-treinado para "capturar" com precisão vários sons na música e, em seguida, aplica-o à tarefa de desempenho automático de piano (APC) por meio de ajuste fino.
O núcleo do algoritmo AMT-APC reside na estratégia de duas etapas:
Etapa um: pré-treinamento. Os pesquisadores escolheram um modelo AMT de alto desempenho chamado hFT-Transformer como base e treinaram-no usando o conjunto de dados MAESTRO, tornando-o capaz de processar clipes musicais mais longos.
Etapa 2: ajuste fino. Os pesquisadores criaram um conjunto de dados emparelhado contendo os arquivos MIDI de áudio da música original e de performance de piano, e usaram esse conjunto de dados para ajustar o modelo AMT para que ele pudesse gerar uma versão de performance de piano que fosse mais consistente com o estilo da música original. .
Para tornar a música de piano gerada mais expressiva, os pesquisadores também introduziram um conceito denominado “vetor de estilo”. Os vetores de estilo são um conjunto de recursos extraídos de cada versão de execução de piano, incluindo distribuição da taxa de início das notas, distribuição da velocidade e distribuição do tom. Ao inserir vetores de estilo no modelo junto com o áudio da música original, o algoritmo AMT-APC é capaz de aprender diferentes estilos de execução e refleti-los na música de piano gerada.
Os resultados experimentais mostram que, em comparação com os modelos de piano automático existentes, a música de piano gerada pelo algoritmo AMT-APC apresenta melhorias significativas na fidelidade e expressividade da qualidade do som. Ao utilizar uma métrica chamada Qmax para avaliar a semelhança entre a música original e o áudio gerado, o modelo AMT-APC alcançou o menor valor de Qmax, o que significa que é mais capaz de restaurar as características da música original.
Este estudo mostra que AMT e APC são tarefas altamente relacionadas, e o uso dos resultados da pesquisa AMT existente pode nos ajudar a desenvolver modelos APC mais avançados. No futuro, os pesquisadores planejam explorar ainda mais modelos AMT que sejam mais adequados para aplicações APC, a fim de obter uma execução de piano automática mais realista e expressiva.
Endereço do projeto: https://misya11p.github.io/amt-apc/
Endereço do artigo: https://arxiv.org/pdf/2409.14086
O sucesso do algoritmo AMT-APC trouxe novas possibilidades para o campo da geração automática de música e também indica que uma tecnologia de geração automática de música mais realista e expressiva está chegando no futuro. Esperamos que futuros pesquisadores continuem a explorar nesta base e nos tragam mais surpresas!