Hume AI hat die Einführung seiner revolutionären Sprachsteuerungsfunktion angekündigt, einer experimentellen Funktion, die es Benutzern ermöglicht, hochgradig personalisierte KI-Stimmen ohne Programmierkenntnisse oder Fachkenntnisse zu erstellen. Diese Funktion basiert auf Humes Empathic Voice Interface 2 (EVI2), das die Natürlichkeit, den emotionalen Ausdruck und die Anpassbarkeit von Sprache weiter verbessert und Entwicklern und Benutzern ein beispielloses Maß an Kontrolle bietet, um Lösungen zu erstellen, die eine Vielzahl einzigartiger Anwendungsanforderungen erfüllen wie Kundendienst-Chatbots, digitale Assistenten, Bildungstools und mehr. Es wird erwartet, dass diese innovative Technologie die Sprach-KI-Branche revolutionieren und Benutzern ein durchdachteres und personalisierteres Spracherlebnis bieten wird.
Hume AI, ein Startup, das sich auf emotional intelligente Sprachschnittstellen konzentriert, hat kürzlich eine experimentelle Funktion namens „Sprachsteuerung“ eingeführt.
Dieses neue Tool soll Entwicklern und Benutzern dabei helfen, personalisierte KI-Sounds zu erstellen, ohne dass sie Programmier-, KI-Prompt-Engineering- oder Sounddesign-Kenntnisse benötigen. Benutzer können den Klang ganz einfach an ihre Bedürfnisse anpassen, indem sie die Klangeigenschaften präzise anpassen.
Diese neue Funktion baut auf dem zuvor eingeführten Empathic Voice Interface 2 (EVI2) des Unternehmens auf, das die Natürlichkeit, emotionale Reaktionsfähigkeit und Anpassbarkeit der Sprache verbesserte. Im Gegensatz zur herkömmlichen Technologie zum Klonen von Stimmen konzentrieren sich die Produkte von Hume auf die Bereitstellung einzigartiger und ausdrucksstarker Stimmen, um den Anforderungen so unterschiedlicher Anwendungen wie Kundendienst-Chatbots, digitalen Assistenten, Lehrern, Reiseleitern und Barrierefreiheitsfunktionen gerecht zu werden.
Mit der Sprachsteuerung können Entwickler die Stimmeigenschaften in zehn verschiedenen Dimensionen anpassen, darunter Geschlecht, Durchsetzungsvermögen, Aufregung, Selbstvertrauen und mehr.
„Männlich/Weiblich: Geschlechtsspezifische Lautäußerungen, die zwischen maskuliner und femininer schwanken.
Selbstvertrauen: Die Festigkeit der Stimme, zwischen Schüchternheit und Kühnheit.
Auftrieb: Die Schalldichte im Bereich zwischen Deflation und Auftrieb.
Selbstvertrauen: Der Grad der Sicherheit in der Stimme, irgendwo zwischen schüchtern und selbstbewusst.
Begeisterung: Spannung in der Stimme, irgendwo zwischen Ruhe und Begeisterung.
Nasal: Die Offenheit der Stimme, die zwischen klar und nasal reicht.
Entspannung: Der Druck in der Stimme, zwischen Anspannung und Entspannung.
Glätte: Die Textur des Klangs, irgendwo zwischen sanft und Staccato.
Milde: Die Energie hinter dem Klang, irgendwo zwischen sanft und kraftvoll.
Enge: Wie zurückhaltend der Klang ist, zwischen eng und atemlos. "
Benutzer können diese Eigenschaften über virtuelle Schieberegler in Echtzeit verfeinern und so die Anpassung einfach und unkompliziert gestalten. Diese Funktion ist derzeit auf der virtuellen Plattform von Hume verfügbar und Benutzer können darauf zugreifen, indem sie sich einfach kostenlos registrieren.
Die Sprachsteuerung ist derzeit in der Betaversion verfügbar und lässt sich in das Empathic Voice Interface (EVI) von Hume integrieren, sodass sie für eine Vielzahl von Anwendungen verfügbar ist. Entwickler können eine Basisstimme auswählen, ihre Eigenschaften anpassen und die Ergebnisse in Echtzeit in der Vorschau anzeigen. Dieser Prozess gewährleistet Wiederholbarkeit und Stabilität von Sitzung zu Sitzung, was ein Schlüsselmerkmal von Echtzeitanwendungen wie Kundendienst-Bots oder virtuellen Assistenten ist.
Der Einfluss von EVI2 zeigt sich deutlich in der Sprachsteuerungsfunktionalität. Frühe Modelle führten Funktionen wie Konversationsansagen und Mehrsprachenfunktionen ein, die den Anwendungsbereich von Sprach-KI-Anwendungen erweiterten. EVI2 unterstützt beispielsweise Reaktionszeiten von weniger als einer Sekunde für natürliche, unmittelbare Gespräche. Darüber hinaus ermöglicht es die dynamische Anpassung des Sprechstils während der Interaktion, was es zu einem vielseitigen Tool für Unternehmen macht.
Dieser Schritt dient genau dazu, das Problem der Abhängigkeit von voreingestellten Sounds in der KI-Branche zu lösen. Viele Marken oder Anwendungen haben oft Schwierigkeiten, Sounds zu finden, die ihren Anforderungen entsprechen. Humes Ziel ist die Entwicklung emotional sensibler Sprach-KI und die Förderung des Branchenfortschritts. Wenn EVI2 im September 2024 veröffentlicht wird, wird es die Latenz und Kosteneffizienz von Sprache bereits deutlich verbessern und eine sichere Alternative zu Sprachanpassungsfunktionen bieten.
Humes forschungsorientierter Ansatz steht im Mittelpunkt der Produktentwicklung und kombiniert interkulturelle Sprachaufzeichnungen und emotionale Umfragedaten. Diese Methodik bildet die Grundlage von EVI2 und der neu eingeführten Sprachsteuerung und ermöglicht es, die menschliche Wahrnehmung von Geräuschen bis ins kleinste Detail zu erfassen.
Derzeit ist die Sprachsteuerung in der Beta-Version gestartet und wird mit Humes Empathic Voice Interface (EVI) kombiniert, um eine Vielzahl von Anwendungsszenarien zu unterstützen. Entwickler können einen Basissound auswählen, seine Eigenschaften anpassen und die Ergebnisse in Echtzeit in der Vorschau anzeigen, um Konsistenz und Stabilität in Echtzeitanwendungen wie Kundendienst oder virtuellen Assistenten sicherzustellen.
Da sich der Wettbewerb auf dem Markt verschärft, zeichnet sich Hume durch seine personalisierte Stimme und seine emotionale Intelligenzpositionierung im Bereich der Sprach-KI aus. Zukünftig plant Hume, die Funktionen der Sprachsteuerung zu erweitern, einstellbare Abmessungen hinzuzufügen, die Klangqualität zu optimieren und die Auswahl an Grundtönen zu erhöhen.
Offizieller Blog: https://www.hume.ai/blog/introducing-voice-control
Highlight:
**Hume AI hat eine „Sprachsteuerungs“-Funktion eingeführt, mit der Benutzer ganz einfach personalisierte KI-Stimmen erstellen können. **
** Für diese Funktion sind keine Programmierkenntnisse erforderlich und Benutzer können die Klangsignatur mit einem Schieberegler anpassen. **
**Hume wurde entwickelt, um unterschiedliche Anwendungsanforderungen durch personalisierte und emotional intelligente Sprach-KI zu erfüllen. **
Alles in allem eröffnet die „Sprachsteuerungs“-Funktion von Hume AI neue Möglichkeiten im Bereich der KI-Sprachanpassung. Es wird erwartet, dass ihr Komfort und ihre personalisierten Funktionen die weitverbreitete Anwendung der Sprach-KI-Technologie fördern und Benutzern ein menschlicheres Sprachinteraktionserlebnis bieten. Es wird erwartet, dass Hume AI durch die kontinuierliche Verbesserung und Erweiterung der Funktionen in Zukunft führend auf dem Gebiet der Sprach-KI wird.