Ouvrez la bouche et agenouillez-vous ! Fish Audio lance Fish Speech 1.5, ajoutant 5 nouvelles langues, et lancera également une fonction de conversation transparente en temps réel

Auteur：Eve Cole Date de mise à jour：2024-12-18 10:00:02

Le nouveau modèle de synthèse vocale Fish Speech 1.5 de Fish Audio a déclenché une tempête dans le domaine de la synthèse vocale. Ce modèle a non seulement apporté des améliorations significatives en termes de précision, de stabilité et de capacités multilingues, mais plus important encore, il a ajouté la prise en charge de cinq nouvelles langues et lancera bientôt une fonction de conversation transparente en temps réel, apportant des avantages sans précédent aux utilisateurs. expérience interactive. Ses performances puissantes sont dérivées de plus d'un million d'heures de données d'entraînement multilingues et il a atteint la deuxième place dans le classement anonyme TTS-Arena. Sa force ne peut être sous-estimée. Cet article examinera en profondeur les fonctionnalités et les avantages de Fish Speech 1.5.

Fish Audio a récemment sorti un blockbuster - Fish Speech1.5. Ce nouveau modèle de synthèse vocale est tout simplement « sonore » immersif, surpassant non seulement ses prédécesseurs en termes de précision, de stabilité et de capacités multilingues. De plus, Fish Speech 1.5 lancera bientôt un véritable. -fonction de conversation transparente dans le temps, permettant aux utilisateurs de sélectionner une bibliothèque vocale pour un chat interactif à tout moment et en tout lieu.

La « connaissance » de Fish Speech 1.5 est assez approfondie. Il a « rongé » plus d'un million d'heures de données de formation multilingues pour développer ses compétences uniques. Il maîtrise actuellement 13 langues, dont l'anglais, le chinois et le japonais. Ce n’est pas de la vantardise, j’ai obtenu la deuxième place au classement anonyme TTS-Arena !

La fonction de clonage vocal de Fish Speech1.5 peut également être appelée "Flash", le temps de retard est inférieur à 150 millisecondes, elle est générée en temps réel ! Plus important encore, Fish Speech1.5 a également généreusement open source le modèle pré-entraîné, peu importe que vous souhaitiez vous « régler » chez vous ou choisir un service cloud, vous pouvez le faire facilement !

Principales caractéristiques :

Synthèse vocale à échantillon nul et à quelques échantillons : il vous suffit d'écouter 10 à 30 secondes d'échantillons sonores, et il sera capable de les imiter parfaitement et de générer une sortie de synthèse vocale de haute qualité. C'est comme un super spectacle d'imitation. Tant qu'on ose « montrer », on ose « apprendre » !

Prise en charge multilingue et multilingue : êtes-vous toujours préoccupé par les barrières linguistiques ? Fish Speech1.5 vous a aidé à éliminer les obstacles : copiez et collez simplement ce que vous voulez dire dans la zone de saisie, et cela peut être fait facilement ! , il prend en charge l'anglais, le japonais, le coréen, le chinois, le français, l'allemand, l'arabe et l'espagnol. Désormais, vous pouvez enfin discuter avec des amis du monde entier !

Pas de dépendance aux phonèmes : les modèles de synthèse vocale traditionnels reposent souvent sur des phonèmes, mais Fish Speech1.5 adopte une approche différente. Il possède des capacités de super généralisation et peut traiter du texte dans n'importe quelle écriture linguistique. Il s'agit simplement d'une révolution dans le monde de la synthèse vocale !

Hautement précis : pour un article en anglais de 5 minutes, le taux d'erreur de Fish Speech1.5 est aussi faible que 2 %, ce qui est un chiffre assez étonnant !

Rapide : Fish Speech1.5 est également très rapide sur un ordinateur portable Nvidia RTX4060, son coefficient en temps réel est d'environ 1:5, et sur un Nvidia RTX4090, son coefficient en temps réel atteint 1:15 ! sensation de « voler » !

Fish Speech1.5 prend également en charge le déploiement local :

WebUI : il fournit une interface utilisateur Web simple et facile à utiliser, compatible avec les navigateurs grand public tels que Chrome, Firefox et Edge, vous permettant de découvrir le plaisir de la synthèse vocale à tout moment et en tout lieu.

GUI : Il fournit également une interface graphique PyQt6 qui peut fonctionner de manière transparente avec le serveur API, prenant en charge les systèmes Linux, Windows et macOS. C'est tout simplement une bonne nouvelle pour les « Trois Mousquetaires » !

Facile à déployer : vous pouvez également déployer facilement Fish Speech1.5 sur les systèmes Linux, Windows et MacOS, minimisant ainsi la perte de vitesse.

Adresse du site officiel : https://fish.audio/zh-CN/

Adresse du projet : https://github.com/fishaudio/fish-speech

Dans l'ensemble, avec ses fonctions puissantes, ses méthodes de déploiement pratiques et ses avantages open source, Fish Speech 1.5 ne manquera pas d'attirer une large attention dans le domaine de la synthèse vocale et d'offrir aux utilisateurs une expérience d'interaction vocale plus pratique et plus intelligente. Son efficacité, sa précision et sa prise en charge multilingue fournissent un support technique puissant pour divers scénarios d'application. Bienvenue à visiter le site officiel et l'adresse du projet pour plus d'informations.