Kürzlich wurde auf der Hugging Face-Plattform ein neues Sprachsynthesemodell namens Kokoro veröffentlicht, das große Aufmerksamkeit erregte. Dieses Modell verwendet nur 82 Millionen Parameter und weniger als 100 Stunden Audiodaten, um Ergebnisse zu erzielen, die mit Modellen mit weit mehr Parametern als es selbst vergleichbar sind, und zählt damit zu den besten im TTS-Bereich. Sein effizienter Trainingsprozess und seine komfortable Nutzung machen es zu einem Durchbruch auf dem Gebiet der Sprachsynthese. In diesem Artikel werden die Leistung, der Trainingsprozess, die Verwendung und die Einschränkungen des Kokoro-Modells ausführlich vorgestellt.
Im Zuge der rasanten Entwicklung der künstlichen Intelligenz erhält die Technologie der Sprachsynthese zunehmende Aufmerksamkeit. Kürzlich wurde das neueste Sprachsynthesemodell namens Kokoro offiziell auf der Hugging Face-Plattform veröffentlicht. Das Modell verfügt über 82 Millionen Parameter und markiert damit einen wichtigen Meilenstein auf dem Gebiet der Sprachsynthese.
Kokoro v0.19 belegte in den Wochen vor seiner Veröffentlichung den ersten Platz in der TTS-Bestenliste (Text-to-Speech) und übertraf sogar andere Modelle mit mehr Parametern. In einer Mono-Einstellung erzielte dieses Modell mit weniger als 100 Stunden Audiodaten vergleichbare Ergebnisse wie Modelle wie der 467M-Parameter XTTS v2 und der 1,2B-Parameter MetaVoice. Dieser Erfolg zeigt, dass der Zusammenhang zwischen der Leistung herkömmlicher Sprachsynthesemodelle und der Menge an Parametern, Berechnungen und Daten möglicherweise bedeutender ist als bisher erwartet.
Was die Nutzung betrifft, müssen Benutzer nur ein paar Codezeilen in Google Colab ausführen, um das Modell- und Sprachpaket zu laden und hochwertiges Audio zu generieren. Kokoro unterstützt derzeit US-Englisch und Britisches Englisch und bietet Benutzern mehrere Sprachpakete zur Auswahl.
Der Trainingsprozess von Kokoro nutzt die A10080GB vRAM-Instanz von Vast.ai und die Mietkosten sind relativ niedrig, was einen effizienten Trainingsprozess gewährleistet. Das gesamte Modell wurde mit weniger als 20 Trainingsepochen und weniger als 100 Stunden Audiodaten trainiert. Kokoro-Modelle nutzen im Training gemeinfreie Audiodaten sowie Audiodaten aus anderen offenen Lizenzen und stellen so die Datenkonformität sicher.
Obwohl Kokoro bei der Sprachsynthese eine gute Leistung erbringt, ist es aufgrund von Einschränkungen in seinen Trainingsdaten und seiner Architektur derzeit nicht in der Lage, das Klonen von Stimmen zu unterstützen, und die Haupttrainingsdaten konzentrieren sich eher auf lange Lesungen und Erzählungen als auf Dialoge.
Modell: https://huggingface.co/hexgrad/Kokoro-82M
Erfahrung: https://huggingface.co/spaces/hexgrad/Kokoro-TTS
Highlight:
Kokoro-82M ist ein neu veröffentlichtes Sprachsynthesemodell mit 82 Millionen Parametern und unterstützt eine Vielzahl von Sprachpaketen.
Dieses Modell weist eine hervorragende Leistung im Bereich TTS auf und belegte einst den ersten Platz in der Rangliste. Es verbrauchte nur weniger als 100 Stunden Audiodaten für das Training.
Kokoro-Modelle werden mithilfe offen lizenzierter Daten trainiert, um die Compliance sicherzustellen. Derzeit gibt es jedoch einige funktionale Einschränkungen.
Insgesamt zeigt das Kokoro-Modell ein beeindruckendes Potenzial im Bereich der Sprachsynthese und sein effizientes Training und seine hervorragende Leistung verdienen Aufmerksamkeit. Obwohl es derzeit noch einige Einschränkungen gibt, glaube ich, dass Kokoro mit der kontinuierlichen Weiterentwicklung der Technologie in Zukunft breitere Anwendungsszenarien haben wird.