NVIDIA lança “varinha mágica de som” Fugatto: você pode tocar música com palavras!

Autor：Eve Cole Data da Última Atualização：2025-01-09 09:24:01

Fugatto, o mais recente modelo de IA lançado pela NVIDIA, parece ter um poder mágico e revoluciona completamente a tecnologia de processamento de áudio. Ele pode não apenas gerar uma mistura de música, voz e som, mas também compreender e executar instruções inseridas pelos usuários por meio de arquivos de texto e áudio, possibilitando a criação de uma variedade de maravilhosos efeitos auditivos. O editor de Downcodes levará você a ter uma compreensão profunda desse modelo disruptivo de IA e ver como ele pode transformar cenas de filmes de ficção científica em realidade.

Fugatto, cujo nome completo é "Foundational Generative Audio Transformer Opus1", é um modelo de processamento de áudio baseado na tecnologia generativa de IA. Ao contrário de outros modelos de IA que só podem criar música ou modificar a fala, o Fugatto tem a capacidade mais poderosa de gerar ou converter qualquer mistura de música, fala e sons, e é capaz de compreender e executar instruções inseridas pelos usuários através de arquivos de texto e áudio.

Os poderosos recursos do Fugatto surpreenderam usuários de todas as esferas da vida, incluindo produtores musicais, agências de publicidade, desenvolvedores de ferramentas de aprendizagem de idiomas e desenvolvedores de jogos. Os produtores musicais podem usá-lo para experimentar rapidamente diferentes estilos musicais, vocais e instrumentos, e até mesmo adicionar efeitos ou melhorar a qualidade do som às músicas existentes. As empresas de publicidade podem usá-lo para adicionar diferentes sotaques e emoções à dublagem de anúncios e promover facilmente anúncios para diferentes regiões e grupos-alvo. Os desenvolvedores de ferramentas de aprendizagem de idiomas podem usar o Fugatto para converter o conteúdo do curso em qualquer voz que o usuário desejar, como a de um familiar ou amigo, para tornar o aprendizado mais personalizado. Os desenvolvedores de jogos podem usar o Fugatto para modificar os materiais sonoros do jogo em tempo real com base no progresso do jogo ou criar novos efeitos sonoros do jogo com base em comandos de texto e entrada de áudio.

A magia do Fugatto é a sua capacidade de compreender e gerar sons como um ser humano. Não só pode executar instruções específicas dadas pelo usuário, mas também pode criar novos sons que nunca foram ouvidos antes. Por exemplo, pode fazer o trompete fazer um som de cachorro e o saxofone fazer um som de gato, desde que o usuário possa descrevê-lo, Fugatto pode criá-lo.

Nota sobre a fonte da imagem: A imagem é gerada por IA e é autorizada pelo provedor de serviços Midjourney

Outra habilidade inovadora do Fugatto é a capacidade de combinar instruções aprendidas separadamente durante o treinamento para produzir efeitos mais complexos. Por exemplo, os usuários podem pedir para gerar uma voz com sotaque francês e uma emoção triste. O que é ainda mais surpreendente é que o Fugatto também permite que os usuários façam ajustes sutis nas instruções, como controlar a espessura do sotaque ou a intensidade da tristeza, permitindo que os usuários criem como um artista.

Fugatto também pode gerar sons que mudam com o tempo, como uma tempestade se aproximando à distância e trovões aumentando em intensidade antes de desaparecer lentamente na distância. Os usuários podem controlar com precisão o processo de mudança de som e criar uma variedade de efeitos sonoros vívidos.

Fugatto é um esforço colaborativo entre pesquisadores de todo o mundo, com membros de equipes de países como Índia, Brasil, China, Jordânia e Coreia do Sul. Suas formações diversificadas conferem a Fugatto maiores capacidades multi-sotaques e multilíngues.

O nascimento do Fugatto é o culminar de anos de pesquisa da NVIDIA nas áreas de modelagem de fala, codificação de áudio e compreensão de áudio. Ele usa 2,5 bilhões de parâmetros e é treinado em um cluster de sistemas NVIDIA DGX equipados com 32 GPUs NVIDIA H100Tensor Core.

O surgimento do Fugatto marca uma nova era na tecnologia de processamento de áudio. Trará possibilidades ilimitadas para vários campos, como música, cinema, jogos, educação, etc. Esperemos ansiosamente pela criação de festas auditivas mais incríveis!

Blog oficial: https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/

O surgimento do Fugatto anuncia o enorme potencial da inteligência artificial no campo do áudio. Suas funções poderosas e métodos de operação convenientes trarão, sem dúvida, inovação sem precedentes para todas as esferas da vida. Vamos esperar e ver como o Fugatto continuará a moldar o nosso mundo auditivo no futuro!