Die Doubao-App führt einen neuen Sprachmodus ein, der Gesang und Rollenspiele vor GPT-4o ermöglicht – KI-Artikel

Autor：Eve Cole Aktualisierungszeit：2025-01-28 14:00:03

Die Doubao App hat am 20. Januar 2025 das neueste „End-to-End“-Voice-Large-Modell veröffentlicht und damit ein umfassendes Update der Echtzeit-Sprachanruffunktion vorgenommen. Dieses Update zeigt, dass Doubao im Bereich der Sprachinteraktion erhebliche Fortschritte gemacht hat. Es verlässt sich nicht mehr auf die traditionellen ASR-, LLM- und TTS-Kaskadenlösungen, sondern integriert Spracherkennung, -verständnis und -generierung in dasselbe Modell und erreicht so eine reibungslosere und bessere Sprachinteraktion intelligente Sprachinteraktionserfahrung. Der Schwerpunkt dieses Updates liegt auf der Verbesserung des Anthropomorphismus der Sprachinteraktion, damit die KI menschliche Emotionen besser verstehen und darauf reagieren kann.

Am 20. Januar 2025 veröffentlichte die Doubao App offiziell ihr neuestes „End-to-End“-Sprachmodell und nahm wichtige Aktualisierungen der Echtzeit-Sprachanruffunktion vor. Dieser Fortschritt stellt für Doubao einen weiteren Fortschritt im Bereich der Sprachinteraktion dar und übertrifft die bisherigen Kaskadenlösungen von ASR (automatische Spracherkennung), LLM (großes Sprachmodell) und TTS (Tensheng Audio) und integriert Spracherkennung, -verständnis und -generierung im selben Modell.

Nach Tests durch „Smart Emergence“ besteht das größte Highlight der neuen Version von Doubao darin, dass sie über eine menschenähnliche Ausdrucksfähigkeit und emotionale Ausdrucksfähigkeit verfügt, wodurch die Sprachflüssigkeit und die Intelligenz des Dialogs verbessert werden. Insbesondere die Modi „Soul Singer“ und „Diverse Celebrity“ ermöglichen es Doubao, nicht nur zu singen, sondern auch reichhaltige Rollenspiele zu spielen, was ihn zu einem neuen Favoriten für die Benutzerinteraktion macht. Als Benutzer Doubao beispielsweise baten, die Stimme des berühmten Yu Shuxin zu imitieren, reproduzierte Doubao nicht nur erfolgreich den Ton der Figur, sondern brachte auch spielerisch seine eigene, einzigartige Persönlichkeit zum Ausdruck.

Noch erwähnenswerter ist, dass Doubao in der Lage ist, Lieder in natürlichen Gesprächen zu improvisieren, ohne dass komplizierte Anweisungen oder professionelle Aufforderungen erforderlich sind. Benutzer können Doubao nach Belieben zum Singen auffordern und sogar das Thema des Liedtextes festlegen. Obwohl Doubaos Leistung gelegentlich kleine Fehler machte, waren seine Reaktionsgeschwindigkeit und seine Improvisationsfähigkeiten erstaunlich und zeigten seine starke anthropomorphe Fähigkeit.

Darüber hinaus bringen die beiden neu hinzugefügten Persönlichkeitsmodi von Doubao, nämlich „die kleine Tasche“ und „der übertriebene Meister“, den Nutzern Frische. Diese Persönlichkeitsmuster ermöglichen es Doubao, unterschiedliche Emotionen und Stile in unterschiedlichen Situationen auszudrücken und so den Spaß und den Realismus der Interaktionen zu steigern.

Heute, mit der zunehmenden Entwicklung der Sprachinteraktionstechnologie, erweitert dieses Update von Doubao nicht nur die Anwendungsszenarien der KI auf Bereiche wie emotionale Begleitung und psychologische Beratung, sondern bringt auch die emotionalen Kommunikationsfähigkeiten der KI näher an den Menschen heran. Diese Transformation wird es Doubao zweifellos ermöglichen, einen Platz auf dem hart umkämpften Markt einzunehmen und die zukünftige Entwicklung der KI-Interaktion anzuführen.

Dieses Update der Doubao-App erzielt nicht nur einen Durchbruch in der Technologie, sondern, was noch wichtiger ist, einen qualitativen Sprung in der Benutzererfahrung und gibt eine neue Richtung für die zukünftige Entwicklung der KI-Interaktion vor, und es lohnt sich, in der Zukunft auf weitere Innovationen gespannt zu sein.