Outetts-0.1-350m: Eine neuartige Synthesemethode für Text-zu-Sprach-Synthese mit Sprachklonierungsfunktion ohne Stichprobe-AI-Artikel

Autor：Eve Cole Aktualisierungszeit：2025-02-13 03:32:01

Oute AI hat eine neue Synthese-Methode für Text-zu-Sprach-Synthese namens Outetts-0.1-350M gestartet, ein vereinfachtes TTS-Modell, das auf der LLAMA-Architektur basiert. Es erfordert keinen externen Adapter, verwendet WavTokenizer direkt, um Audio-Tags zu generieren, und verfügt über eine Sprachklonierungsfunktion ohne Stichprobe, mit der neue Sounds in wenigen Sekunden nach Referenz-Audio kopiert werden können. Die Parameter des Modells sind relativ gering, können jedoch eine Leistung erzielen, die mit größeren und komplexeren Systemen vergleichbar ist, und ist mit llama.cpp kompatibel, wodurch es ideal für Echtzeitanwendungen ist. Seine Effizienz und Benutzerfreundlichkeit haben eine breite Palette von Anwendungsaussichten in Bereichen wie personalisierten Assistenten, Hörbüchern und Lokalisierung von Inhalten.

Kürzlich veröffentlichte Oute AI eine neuartige Synthese-Methode für Text-zu-Sprache namens Outetts-0.1-350m. Dieser Ansatz verwendet reine Sprachmodellierung ohne externe Adapter oder komplexe Architekturen und bietet einen vereinfachten TTS -Ansatz. Outetts-0.1-350m basiert auf der Lama-Architektur, wobei WavTokenizer direkt Audio-Tags generiert, wodurch der Prozess effizienter wird.

Das Modell verfügt über eine Sprachklone ohne Stichprobe und kann neue Sounds in wenigen Sekunden nach Referenz-Audio kopieren. Outetts-0.1-350m ist für die Geräteleistung ausgelegt und ist mit llama.cpp kompatibel. Damit ist es ideal für Echtzeit-Anwendungen. Obwohl das Modell eine relativ kleine Parametergröße (350 Millionen) aufweist, ist seine Leistung mit größeren und komplexeren TTS -Systemen vergleichbar.

Die Zugänglichkeit und Effizienz von Outetts-0.1-350M macht es für eine Vielzahl von Anwendungen geeignet, einschließlich personalisierter Assistenten, Hörbücher und Inhaltslokalisierung. Oute AI, veröffentlicht unter CC-BY-Lizenz, fördert weitere Experimente und Integration in verschiedene Projekte, um die fortschrittliche TTS-Technologie zu demokratisieren.

Die Veröffentlichung von Outetts-0.1-350M ist ein wichtiger Schritt nach vorne in der Text-zu-Sprache-Technologie, in der eine vereinfachte Architektur verwendet wird, um eine qualitativ hochwertige Sprachsynthese mit minimalen Rechenanforderungen bereitzustellen. Es integriert die Lama-Architektur, verwendet WavTokenizer und kann ohne komplexe Adapter, die es vom traditionellen TTS-Modell unterscheiden, ohne komplexe Adapter durchführen.

Adresse: https://www.outeA.com/blog/outetts-0.1-350m

Die effiziente, vereinfachte Architektur und die Sprachklonierungsfunktion von Outetts-0.1-350M bieten die Text-zu-Sprache-Technologie neue Möglichkeiten und bieten Entwicklern bequemere und benutzerfreundlichere Tools. Die Open -Source -Eigenschaften haben die technologische Entwicklung und Popularisierung von Anwendungen in diesem Bereich gefördert.