A Fish Audio lançou seu novo modelo de processamento de voz, o Fish Agent V0.13b, um impressionante modelo de voz a fala que pode gerar e processar com eficiência e precisão a fala, e é boa em simular e clonar sons diferentes. O modelo é pré-treinado com base na instrução QWEN-2.5-3B e usa um conjunto de dados enorme contendo 200 bilhões de fonoans e tokens de texto. Sua inovação reside na adoção de uma arquitetura "semant para token" que processa diretamente a voz no nível do som, melhorando assim a velocidade e a eficiência, realizando a clonagem de voz "instantânea" e a conversão de texto em fala, que requer apenas 200 milissegundos. O modelo suporta vários idiomas e é de código aberto, trazendo novas possibilidades ao desenvolvimento da tecnologia de voz da IA.
Recentemente, o Fish Audio lançou o novo modelo de processamento de voz v0.13b. Isso significa que estamos um passo mais perto de ter um assistente de voz natural e responsivo da IA.
O modelo FISH Agent V0.13b é pré-treinado com base na instrução QWEN-2.5-3B e usa um enorme conjunto de dados contendo 200 bilhões de tokens de fala e texto. Diferentemente dos modelos tradicionais que requerem primeiro a conversão de fala em codificação semântica complexa, o FISH Agent V0.13b adota uma arquitetura chamada "Token Semanticless" para processar e gerar fala diretamente no nível do som. Esse processamento direto não apenas simplifica a estrutura do modelo, mas também melhora a velocidade e a eficiência da reação do modelo.
Graças a esta arquitetura inovadora, o FISH Agent V0.13b pode gerar voz rápida e naturalmente de alta qualidade, permitindo a clonagem de voz "instantânea" e a conversão de texto em fala, com tempo de conversão de texto em Audio (TTFA) em apenas 200 milissegundos . Esse recurso o torna ideal para cenários de aplicativos que exigem geração de voz em tempo real, como assistentes de voz, atendimento automático ao cliente e outros cenários que exigem feedback de voz rápido.
O modelo FISH Agent V0.13B suporta vários idiomas, incluindo inglês, chinês, alemão, japonês, francês, espanhol, coreano e árabe, e usa cerca de 700.000 horas de dados multilíngues de áudio para treinamento. Isso significa que ele pode lidar com vários idiomas e contextos e gera uma pronúncia mais natural e mais próxima da pessoa real.
Além das funções de conversão de geração de voz e fala e conversão de texto em fala, o FISH Agent V0.13b também possui os seguintes recursos importantes:
Clonagem por voz zero-amostra: a clonagem de voz pode ser alcançada sem treinamento.
Parâmetros 3B simplificados: use 3 bilhões de parâmetros para facilitar o desenvolvimento.
Suporta entrada de texto e áudio: método flexível de entrada múltipla.
Atualmente, a Fish Audio possui o modelo de Fish Agent V0.13b e fornece uma versão de demonstração preliminar para experiência do usuário. O lançamento deste modelo promoverá ainda mais o desenvolvimento da tecnologia de voz da IA e trará mais possibilidades a aplicativos como assistentes de voz e pessoas virtuais.
Github: https://github.com/fishaudio/fish-epech
Demoção do agente de peixes: https://huggingface.co/spaces/fishaudio/fish-agent
Download do modelo: https://huggingface.co/fishaudio/fish-agent-v0.1-3b
Relatório Técnico: https://arxiv.org/abs/2411.01156
A liberação de código aberto do modelo FISH Agent V0.13B trará novos avanços na pesquisa e aplicação do campo de voz da IA, e vale a pena esperar seu papel no desenvolvimento futuro da tecnologia de voz. Espero que mais desenvolvedores possam participar e promover em conjunto o avanço da tecnologia de voz da IA.