A NVIDIA lançou um modelo revolucionário de geração e processamento de áudio chamado Fugatto, que possui 2,5 bilhões de parâmetros e foi projetado para trazer flexibilidade e criatividade sem precedentes ao campo da música e da criação sonora. Fugatto combina prompts de texto e tecnologia avançada de síntese de áudio, suporta entrada de texto e áudio, rompe as limitações dos modelos tradicionais de geração de áudio, permite aos usuários criar e modificar em tempo real e gerar uma variedade de novos efeitos sonoros. Sua inovadora tecnologia "Composable Audio Representation Transformation" (ComposableART) oferece aos usuários controle sem precedentes e controle preciso sobre o som.
No campo da música e da criação sonora, a combinação de tecnologia e criatividade sempre enfrentou muitos desafios. Os modelos de IA existentes muitas vezes só são bons em tarefas específicas e carecem de ampla adaptabilidade, o que limita o papel auxiliar da IA na produção musical. Para que a IA sirva melhor a produção musical e de áudio, é urgentemente necessário um modelo universal que possa responder de forma flexível a várias necessidades criativas. Para isso, a NVIDIA lançou o Fugatto, modelo de geração e processamento de áudio com 2,5 bilhões de parâmetros.
O Fugatto foi projetado para fornecer um espaço altamente flexível para entrada de voz e experimentação criativa, combinando prompts de texto com recursos avançados de síntese de áudio. Por exemplo, pode transformar uma melodia de piano em um vocal cantado ou dar ao trompete um som inesperado.
Fugatto não apenas oferece suporte à entrada de texto, mas também à entrada de áudio opcional, quebrando as limitações dos modelos tradicionais de geração de áudio, permitindo que artistas e desenvolvedores criem e modifiquem em tempo real e gerem novos tipos de sons sem problemas.
Do lado técnico, Fugatto utiliza uma abordagem inovadora para geração de dados que vai além do tradicional aprendizado supervisionado. Seu treinamento depende não apenas de conjuntos de dados regulares, mas também de conjuntos de dados especialmente gerados, criando uma rica variedade de tarefas de áudio e conversão. Além disso, Fugatto usa modelos de linguagem grande (LLM) para aprimorar os recursos de geração de instruções e compreender melhor a relação entre prompts de áudio e texto.
Uma inovação importante é a Composable Audio Representation Transform (ComposableART), uma técnica usada em tempo de inferência para combinar, interpolar ou negar de forma flexível diferentes instruções de geração de áudio. O ComposableART oferece aos usuários maior controle sobre o processo de síntese de áudio, permitindo-lhes navegar com precisão pela paleta sonora do Fugatto para criar fenômenos sonoros únicos.
A arquitetura do Fugatto é baseada no modelo Transformer aprimorado e usa modificações específicas, como normalização de camada adaptativa, para manter a consistência sob múltiplas condições de entrada e suportar instruções de combinação complexas. Os testes preliminares mostram que o Fugatto tem um bom desempenho em benchmarks comuns, principalmente na síntese e transformação de som, mostrando maiores capacidades do que outros modelos profissionais.
O lançamento do Fugatto marca um avanço importante na IA de geração de áudio, rompendo as limitações tradicionais e fornecendo uma ferramenta poderosa e flexível para produção criativa de áudio. As suas aplicações potenciais em múltiplos campos, como música, jogos, entretenimento e educação, significam que a tecnologia de IA continuará a desempenhar um papel importante no apoio à criatividade humana.
Blog oficial: https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/
Artigo: https://d1qx31qr3h6wln.cloudfront.net/publications/FUGATTO.pdf
Destaque:
Fugatto é um modelo de IA de áudio lançado pela NVIDIA. Possui 2,5 bilhões de parâmetros, suporta entrada de texto e áudio e auxilia na criação de música e som.
Usando métodos inovadores de geração de dados e tecnologia combinável de transformação de representação de áudio, os usuários podem gerar e modificar sons de maneira flexível.
Testes preliminares mostram que Fugatto supera diversos modelos profissionais em síntese e transformação de áudio, demonstrando seu forte potencial criativo.
Em suma, Fugatto, com suas funções poderosas e recursos flexíveis, traz novas possibilidades para as áreas de criação musical e design de som, indicando que a aplicação da IA na indústria criativa será mais ampla e aprofundada. Esperamos que Fugatto nos traga mais surpresas no futuro.