Comparable à GPT-SoVITS ! Fish Speech, un modèle TTS open source à faible mémoire, prend parfaitement en charge les langues chinoise, anglaise et japonaise

Auteur：Eve Cole Date de mise à jour：2025-03-01 14:00:03

Fish Speech est un outil de synthèse vocale révolutionnaire développé par fishaudio qui offre des capacités de traitement vocal presque au niveau humain. Il prend en charge trois langues : chinois, anglais et japonais, et dispose d'une fonction de clonage vocal. Il vous suffit de fournir une voix de référence pour un clonage rapide. Cet outil a des exigences matérielles extrêmement faibles, ne nécessitant que 4 Go de mémoire vidéo pour fonctionner, et prend en charge une variété de modèles de génération vocale différents, offrant aux utilisateurs une grande commodité et flexibilité. Que ce soit pour un usage personnel ou des projets créatifs, Fish Speech offre un support vocal puissant.

Points clés :

Prend parfaitement en charge trois langues : chinois, anglais et japonais, et le traitement de la parole est proche du niveau humain

Prend en charge le clonage vocal. Il vous suffit de fournir une voix de référence pour terminer rapidement le clonage.

Très faible besoin en mémoire graphique, seulement 4 Go, prend en charge une variété de modèles de génération vocale différents

L'avantage du modèle Fish Speech est qu'il a utilisé environ 150 000 heures de données trilingues pour la formation, et ses performances, notamment en chinois, sont tout simplement impeccables. En tant que modèle comportant des centaines de millions de paramètres, il est conçu pour être à la fois efficace et léger, ce qui signifie que vous pouvez facilement l'exécuter et l'affiner sur votre appareil personnel et profiter de la commodité de la conversion vocale à tout moment et en tout lieu.

Prise en charge du chinois

À l'heure actuelle, la plupart des voix disponibles dans la bibliothèque sont des voix de personnages d'anime. AIbase a saisi un morceau de texte à tester et a constaté que certains personnages d'anime parlent lentement. S'il doit être utilisé dans la vidéo, il est nécessaire de le supprimer. les pauses trop longues. Les voix de vraies personnes incluent Ding Zhen, Trump et Sun Xiaochuan, mais il vaut mieux ne pas utiliser les voix d'autres vraies personnes au cas où. Si vous souhaitez utiliser une vraie voix, vous pouvez envisager de créer votre propre voix.

Voici le résultat du test d'AIbase :

Ce qui est encore plus excitant, c'est que Fish Speech utilise l'algorithme Flash-Attn, spécialement conçu pour le traitement de données à grande échelle et connu pour son efficacité, sa précision et sa stabilité. Cela améliore non seulement considérablement les performances de la technologie TTS, mais vous permet également de profiter d'une expérience d'utilisation fluide sans précédent.

Prise en charge de l'anglais

De plus, la capacité de clonage vocal de Fish Speech est également un point fort. Il vous suffit de fournir une voix de référence, et cela peut rapidement cloner la voix sans passer par un processus de formation fastidieux. De plus, il a des besoins extrêmement faibles en mémoire vidéo, seulement 4 Go, et une vitesse d'inférence rapide, ce qui optimise considérablement l'expérience utilisateur.

Supporte le japonais

Bien entendu, la puissance de Fish Speech va bien au-delà. Fish Speech prend en charge une variété de modèles de génération vocale différents, notamment :

VITS2 : Modèle de synthèse vocale basé sur l'inférence variationnelle.

Bert-VITS2 : modèle de synthèse vocale d'inférence variationnelle combiné au modèle BERT.

GPT VITS : modèle de synthèse vocale combiné au modèle GPT.

MQTTS : modèle de synthèse vocale basé sur la technologie de quantification.

GPT Fast : modèle GPT pour générer rapidement de la parole.

GPT-SoVITS : un modèle de synthèse vocale qui combine les technologies GPT et SoVITS.

Chaque modèle possède ses propres avantages et répond aux besoins des différents utilisateurs.

Dans l’ensemble, Fish Speech est un outil de synthèse vocale innovant, efficace et léger. Il peut non seulement devenir votre assistant vocal personnel, mais également fournir un puissant support vocal pour vos projets créatifs. Si vous êtes intéressé par la technologie vocale ou si vous recherchez une solution TTS qui ne nécessite pas de formation fastidieuse et peut être rapidement clonée, alors Fish Speech vaut vraiment la peine d'être essayé.

Adresse du site officiel : https://top.aibase.com/tool/fish-audiowenbenzhuanyuyin

Adresse du projet : https://github.com/fishaudio/fish-speech

Avec ses fonctions puissantes et son expérience d'utilisation pratique, Fish Speech deviendra certainement un cheval noir dans le domaine de la synthèse vocale. Que vous soyez un professionnel ou un utilisateur ordinaire, vous pouvez facilement vous lancer et profiter de l'efficacité et de la commodité qu'il apporte. Venez découvrir cet incroyable outil vocal !