O editor de Downcodes aprendeu que o mais recente modelo de processamento de fala Fish Agent V0.13B lançado pela Fish Audio Company fez sucesso no campo da fala de IA com seus recursos de geração e processamento de fala eficientes e precisos. Este modelo é particularmente bom para simular e clonar vários sons, melhorando significativamente a fidelidade e a velocidade de resposta do assistente de voz AI e trazendo aos usuários uma experiência de interação de voz mais natural e suave. Sua arquitetura inovadora permite clonagem de voz “instantânea” e conversão de texto em fala com um tempo de conversão de apenas 200 milissegundos, o que permite mostrar grande potencial em aplicações de geração de voz em tempo real, como assistentes de voz e atendimento automatizado ao cliente.
Graças a esta arquitetura inovadora, o Fish Agent V0.13B é capaz de gerar fala de alta qualidade de forma rápida e natural, conseguindo clonagem de fala "instantânea" e conversão de texto para fala, com um tempo de conversão de texto para áudio (TTFA) de apenas 200 milissegundos. Esse recurso o torna ideal para cenários de aplicativos que exigem geração de fala em tempo real, como assistentes de voz, atendimento automatizado ao cliente e outros cenários que exigem feedback de voz rápido.
O modelo Fish Agent V0.13B oferece suporte a vários idiomas, incluindo inglês, chinês, alemão, japonês, francês, espanhol, coreano e árabe, e foi treinado usando aproximadamente 700.000 horas de dados de áudio multilíngues. Isso significa que ele pode lidar com vários idiomas e contextos e gerar uma fala mais natural e próxima do que uma pessoa real pronunciaria.
Além dos recursos de geração de fala para fala e conversão de texto para fala, o Fish Agent V0.13B também inclui os seguintes recursos principais:
Clonagem de voz com amostra zero: A clonagem de voz pode ser alcançada sem treinamento.
Parâmetros 3B simplificados: Use 3 bilhões de parâmetros para facilitar o desenvolvimento.
Suporte para entrada de texto e áudio: vários métodos de entrada flexíveis.
Atualmente, a Fish Audio abriu o código-fonte do modelo Fish Agent V0.13B e forneceu uma versão de demonstração preliminar para os usuários experimentarem. O lançamento deste modelo promoverá ainda mais o desenvolvimento da tecnologia de voz de IA e trará mais possibilidades para aplicações como assistentes de voz e humanos virtuais.
GitHub: https://github.com/fishaudio/fish-speech
Demonstração do agente Fish: https://huggingface.co/spaces/fishaudio/fish-agent
Download do modelo: https://huggingface.co/fishaudio/fish-agent-v0.1-3b
Relatório técnico: https://arxiv.org/abs/2411.01156
O lançamento de código aberto do Fish Agent V0.13B marca um novo marco na tecnologia de voz de IA, fornecendo aos desenvolvedores e pesquisadores ferramentas poderosas e também indica que os aplicativos de voz de IA serão mais ricos e convenientes no futuro. Esperamos que a Fish Audio traga mais inovações no campo da voz AI!