NVIDIA lança “varinha mágica de som” Fugatto: você pode tocar música com palavras! - Artigos de IA

Autor：Eve Cole Data da Última Atualização：2025-01-29 16:32:01

A NVIDIA lançou o incrível modelo de áudio AI Fugatto, que é como uma varinha mágica, dando aos usuários a capacidade de controlar sons por meio de texto. Fugatto é mais do que um simples gerador de áudio. Ele pode misturar música, fala e vários sons e compreender instruções de texto complexas para obter criação e manipulação de áudio sem precedentes. Este modelo tem uma ampla gama de possibilidades de aplicação, desde a produção musical até a dublagem publicitária, do aprendizado de idiomas ao desenvolvimento de jogos, o Fugatto pode fornecer um suporte poderoso, melhorando muito a eficiência e a criatividade. Suas poderosas capacidades de processamento multilíngue e multi-sotaques, bem como o controle preciso dos detalhes sonoros, demonstram sua força técnica inovadora.

Você ainda se lembra da cena do filme de ficção científica em que o protagonista agita uma varinha mágica e pode controlar o som à vontade. Agora, essa habilidade mágica não é mais uma fantasia, o mais recente modelo de IA da NVIDIA, Fugatto, é como uma “varinha mágica sonora”! , permitindo que os usuários controlem músicas, sons e vozes usando apenas texto e criem uma variedade de efeitos auditivos maravilhosos.

Fugatto, cujo nome completo é "Foundational Generative Audio Transformer Opus1", é um modelo de processamento de áudio baseado na tecnologia generativa de IA. Ao contrário de outros modelos de IA que só podem criar música ou modificar a fala, o Fugatto tem a capacidade mais poderosa de gerar ou converter qualquer mistura de música, fala e sons, e é capaz de compreender e executar instruções inseridas pelos usuários através de arquivos de texto e áudio.

Os poderosos recursos do Fugatto surpreenderam usuários de todas as esferas da vida, incluindo produtores musicais, agências de publicidade, desenvolvedores de ferramentas de aprendizagem de idiomas e desenvolvedores de jogos. Os produtores musicais podem usá-lo para experimentar rapidamente diferentes estilos musicais, vocais e instrumentos e até mesmo adicionar efeitos ou melhorar a qualidade do som às músicas existentes. As empresas de publicidade podem usá-lo para adicionar diferentes sotaques e emoções à dublagem de anúncios e promover facilmente anúncios para diferentes regiões e grupos-alvo. Os desenvolvedores de ferramentas de aprendizagem de idiomas podem usar o Fugatto para converter o conteúdo do curso em qualquer voz que o usuário desejar, como a de um familiar ou amigo, para tornar o aprendizado mais personalizado. Os desenvolvedores de jogos podem usar o Fugatto para modificar os materiais sonoros do jogo em tempo real com base no progresso do jogo ou criar novos efeitos sonoros do jogo com base em comandos de texto e entrada de áudio.

A magia do Fugatto é a sua capacidade de compreender e gerar sons como um ser humano. Não só pode executar instruções específicas dadas pelo usuário, mas também pode criar novos sons que nunca foram ouvidos antes. Por exemplo, pode fazer o trompete fazer um som de cachorro e o saxofone fazer um som de gato, desde que o usuário possa descrevê-lo, Fugatto pode criá-lo.

音频声波

Outra habilidade inovadora do Fugatto é a capacidade de combinar instruções aprendidas separadamente durante o treinamento para produzir efeitos mais complexos. Por exemplo, os usuários podem pedir para gerar uma voz com sotaque francês e uma emoção triste. O que é ainda mais surpreendente é que o Fugatto também permite que os usuários façam ajustes sutis nas instruções, como controlar a espessura do sotaque ou a intensidade da tristeza, permitindo que os usuários criem como um artista.

Fugatto também pode gerar sons que mudam com o tempo, como uma tempestade se aproximando à distância e trovões aumentando em intensidade antes de desaparecer lentamente na distância. Os usuários podem controlar com precisão o processo de mudança de som e criar uma variedade de efeitos sonoros vívidos.

Fugatto é um esforço colaborativo entre pesquisadores de todo o mundo, com membros de equipes de países como Índia, Brasil, China, Jordânia e Coreia do Sul. Suas formações diversificadas conferem a Fugatto maiores capacidades multi-sotaques e multilíngues.

O nascimento do Fugatto é o culminar de anos de pesquisa da NVIDIA nas áreas de modelagem de fala, codificação de áudio e compreensão de áudio. Ele usa 2,5 bilhões de parâmetros e é treinado em um cluster de sistemas NVIDIA DGX equipados com 32 GPUs NVIDIA H100Tensor Core.

O surgimento do Fugatto marca uma nova era na tecnologia de processamento de áudio. Trará possibilidades ilimitadas para vários campos, como música, cinema, jogos, educação, etc. Esperemos ansiosamente pela criação de festas auditivas mais incríveis!

Blog oficial: https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/

O surgimento do Fugatto não é apenas um avanço da tecnologia, mas também uma extensão infinita da criatividade. Ele fornece aos artistas e desenvolvedores ferramentas criativas sem precedentes e anuncia as infinitas possibilidades da futura tecnologia de áudio. Vamos esperar e ver como o Fugatto mudará o nosso mundo auditivo.