Fish Audio Sortie Agent Fish V0.1 Clonage vocal en temps réel - Article AI

Auteur：Eve Cole Date de mise à jour：2025-02-13 00:16:01

Fish Audio a publié son nouveau modèle de traitement vocal, Fish Agent V0.13B, un modèle impressionnant de voix à vocation qui peut générer et traiter efficacement et avec précision la parole, et est bon pour simuler et cloner différents sons. Le modèle est pré-formé sur la base de QWEN-2.5-3B-Istruct et utilise un ensemble de données massif contenant 200 milliards de jetons de parole et de texte. Son innovation réside dans l'adoption d'une architecture "sans jeton sémantique" qui traite directement la voix au niveau sonore, améliorant ainsi la vitesse et l'efficacité, réalisant le clonage vocal "instantané" et la conversion de texte vocale, qui ne prend que 200 millisecondes. Le modèle prend en charge plusieurs langues et est open source, apportant de nouvelles possibilités au développement de la technologie vocale de l'IA.

Récemment, Fish Audio a publié le nouveau modèle de traitement vocal Agent Fish V0.13B. Cela signifie que nous sommes un pas de plus vers un assistant vocal AI naturel et réactif.

Le modèle Fish Agent V0.13B est pré-formé sur la base de l'instruct de QWEN-2.5-3B et utilise un ensemble de données massif contenant 200 milliards de jetons de parole et de texte. Contrairement aux modèles traditionnels qui nécessitent d'abord la conversion de la parole en encodage sémantique complexe, l'agent de poisson V0.13b adopte une architecture appelée "jeton sémantique" pour traiter et générer une parole directement au niveau sonore. Ce traitement direct simplifie non seulement la structure du modèle, mais améliore également la vitesse et l'efficacité de réaction du modèle.

Grâce à cette architecture innovante, l'agent de poisson V0.13b peut générer rapidement et naturellement une voix de haute qualité, permettant un clonage vocal "instantané" et une conversion de texte vocale, avec du temps de conversion de texte à audio (TTFA) en seulement 200 millisecondes . Cette fonctionnalité le rend idéal pour les scénarios d'application qui nécessitent une génération de voix en temps réel, tels que les assistants vocaux, le service client automatique et d'autres scénarios qui nécessitent une rétroaction vocale rapide.

Le modèle Fish Agent V0.13B prend en charge plusieurs langues, y compris l'anglais, le chinois, l'allemand, le japonais, le français, l'espagnol, le coréen et l'arabe, et utilise environ 700 000 heures de données audio multilingues pour la formation. Cela signifie qu'il peut gérer plusieurs langues et contextes et génère une prononciation plus naturelle et plus étroite de la personne réelle.

En plus des fonctions de génération vocale et de conversion de texte vocale, l'agent de poisson V0.13b a également les caractéristiques clés suivantes:

Clonage vocal zéro-échantillon: le clonage vocal peut être réalisé sans formation.

Paramètres 3B simplifiés: utilisez 3 milliards de paramètres pour un développement facile.

Prend en charge la saisie du texte et de l'audio: méthode multi-entrée flexible.

Actuellement, Fish Audio a un modèle d'agent de poisson V0.13b d'origine et fournit une version de démonstration préliminaire pour l'expérience utilisateur. La publication de ce modèle favorisera davantage le développement de la technologie vocale de l'IA et apportera plus de possibilités aux applications telles que les assistants vocaux et les personnes virtuelles.

Github: https://github.com/fishaudio/fish-speech

Demo de l'agent de poisson: https://huggingface.co/spaces/fishaudio/fish-agent

Téléchargement du modèle: https://huggingface.co/fishaudio/fish-agent-v0.1-3b

Rapport technique: https://arxiv.org/abs/2411.01156

La publication open source du modèle de l'agent de poisson V0.13B apportera de nouvelles percées à la recherche et à l'application du domaine vocal de l'IA, et il vaut la peine de attendre son rôle dans le développement futur de la technologie vocale. J'espère que davantage de développeurs pourront participer et promouvoir conjointement l'avancement de la technologie vocale de l'IA.