Fish Audio lance le clonage vocal en temps réel Fish Agent V0.1 3B

Auteur：Eve Cole Date de mise à jour：2024-12-24 19:48:01

L'éditeur de Downcodes a appris que le dernier modèle de traitement vocal Fish Agent V0.13B publié par Fish Audio Company a fait des vagues dans le domaine de la parole IA grâce à ses capacités de génération et de traitement vocales efficaces et précises. Ce modèle est particulièrement efficace pour simuler et cloner divers sons, améliorant considérablement la fidélité et la vitesse de réponse de l'assistant vocal AI et offrant aux utilisateurs une expérience d'interaction vocale plus naturelle et plus fluide. Son architecture innovante permet le clonage vocal « instantané » et la conversion texte-parole avec un temps de conversion de seulement 200 millisecondes, ce qui lui permet de montrer un grand potentiel dans les applications de génération vocale en temps réel telles que les assistants vocaux et le service client automatisé.

Grâce à cette architecture innovante, Fish Agent V0.13B est capable de générer rapidement et naturellement une parole de haute qualité, réalisant un clonage vocal et une conversion texte-parole « instantanés », avec un temps de conversion texte-audio (TTFA) de seulement 200 millisecondes. Cette fonctionnalité le rend idéal pour les scénarios d'application nécessitant une génération vocale en temps réel, tels que les assistants vocaux, le service client automatisé et d'autres scénarios nécessitant un retour vocal rapide.

Le modèle Fish Agent V0.13B prend en charge plusieurs langues, dont l'anglais, le chinois, l'allemand, le japonais, le français, l'espagnol, le coréen et l'arabe, et a été formé à l'aide d'environ 700 000 heures de données audio multilingues. Cela signifie qu'il peut gérer plusieurs langues et contextes et générer un discours plus naturel et plus proche de ce qu'une personne réelle prononcerait.

En plus des capacités de génération parole-parole et de conversion texte-parole, Fish Agent V0.13B comprend également les fonctionnalités clés suivantes :

Clonage vocal sans échantillon : le clonage vocal peut être réalisé sans formation.

Paramètres 3B rationalisés : utilisez 3 milliards de paramètres pour faciliter le développement.

Prise en charge de la saisie de texte et audio : méthodes de saisie multiples flexibles.

Actuellement, Fish Audio a open source le modèle Fish Agent V0.13B et a fourni une version de démonstration préliminaire que les utilisateurs peuvent expérimenter. La sortie de ce modèle favorisera davantage le développement de la technologie vocale IA et apportera davantage de possibilités aux applications telles que les assistants vocaux et les humains virtuels.

GitHub : https://github.com/fishaudio/fish-speech

Démo Fish Agent : https://huggingface.co/spaces/fishaudio/fish-agent

Téléchargement du modèle : https://huggingface.co/fishaudio/fish-agent-v0.1-3b

Rapport technique : https://arxiv.org/abs/2411.01156

La version open source de Fish Agent V0.13B marque une nouvelle étape dans la technologie vocale de l'IA, fournissant aux développeurs et aux chercheurs des outils puissants, et indique également que les applications vocales de l'IA seront plus riches et plus pratiques à l'avenir. Nous attendons avec impatience que Fish Audio apporte plus d'innovations dans le domaine de la voix IA !