Fish Audio veröffentlicht Fish Agent V0.1 3B zum Klonen von Stimmen in Echtzeit

Autor：Eve Cole Aktualisierungszeit：2024-12-24 19:48:01

Der Herausgeber von Downcodes erfuhr, dass das neueste Sprachverarbeitungsmodell Fish Agent V0.13B von Fish Audio Company mit seinen effizienten und genauen Spracherzeugungs- und -verarbeitungsfunktionen im Bereich der KI-Sprache für Aufsehen gesorgt hat. Dieses Modell ist besonders gut darin, verschiedene Geräusche zu simulieren und zu klonen, wodurch die Wiedergabetreue und Reaktionsgeschwindigkeit des KI-Sprachassistenten erheblich verbessert wird und den Benutzern ein natürlicheres und reibungsloseres Sprachinteraktionserlebnis geboten wird. Seine innovative Architektur ermöglicht das „sofortige“ Stimmenklonen und die Text-in-Sprache-Konvertierung mit einer Konvertierungszeit von nur 200 Millisekunden, wodurch es großes Potenzial in Echtzeit-Sprachgenerierungsanwendungen wie Sprachassistenten und automatisiertem Kundenservice zeigt.

Dank dieser innovativen Architektur ist Fish Agent V0.13B in der Lage, schnell und natürlich hochwertige Sprache zu generieren und erreicht so ein „sofortiges“ Sprachklonen und Text-zu-Sprache-Konvertierung mit einer Text-zu-Audio-Konvertierungszeit (TTFA) von nur 200 Millisekunden. Diese Funktion macht es ideal für Anwendungsszenarien, die eine Sprachgenerierung in Echtzeit erfordern, wie z. B. Sprachassistenten, automatisierter Kundenservice und andere Szenarien, die schnelles Sprachfeedback erfordern.

Das Modell Fish Agent V0.13B unterstützt mehrere Sprachen, darunter Englisch, Chinesisch, Deutsch, Japanisch, Französisch, Spanisch, Koreanisch und Arabisch, und wurde mit etwa 700.000 Stunden mehrsprachiger Audiodaten trainiert. Dies bedeutet, dass es mehrere Sprachen und Kontexte verarbeiten und eine natürlichere Sprache erzeugen kann, die näher an der Aussprache einer echten Person liegt.

Neben den Funktionen zur Sprach-zu-Sprache-Generierung und Text-zu-Sprache-Konvertierung umfasst Fish Agent V0.13B auch die folgenden Hauptfunktionen:

Sprachklonen ohne Beispiel: Das Klonen von Stimmen kann ohne Schulung durchgeführt werden.

Optimierte 3B-Parameter: Verwenden Sie 3 Milliarden Parameter, um die Entwicklung zu erleichtern.

Unterstützt Text- und Audioeingabe: flexible mehrere Eingabemethoden.

Derzeit hat Fish Audio das Fish Agent V0.13B-Modell als Open Source bereitgestellt und eine vorläufige Demoversion zur Verfügung gestellt, die Benutzer ausprobieren können. Die Veröffentlichung dieses Modells wird die Entwicklung der KI-Sprachtechnologie weiter vorantreiben und mehr Möglichkeiten für Anwendungen wie Sprachassistenten und virtuelle Menschen eröffnen.

GitHub: https://github.com/fishaudio/fish-speech

Fish Agent-Demo: https://huggingface.co/spaces/fishaudio/fish-agent

Modell-Download: https://huggingface.co/fishaudio/fish-agent-v0.1-3b

Technischer Bericht: https://arxiv.org/abs/2411.01156

Die Open-Source-Veröffentlichung von Fish Agent V0.13B markiert einen neuen Meilenstein in der KI-Sprachtechnologie, stellt Entwicklern und Forschern leistungsstarke Tools zur Verfügung und zeigt auch, dass KI-Sprachanwendungen in Zukunft umfangreicher und komfortabler sein werden. Wir freuen uns darauf, dass Fish Audio weitere Innovationen im Bereich der KI-Stimme bringt!