Hume AI kündigte die Einführung seiner experimentellen Funktion „Voice Control“ an, einer innovativen Funktion, die es Benutzern ermöglicht, personalisierte KI-Stimmen ohne Programmier- oder KI-Kenntnisse einfach anzupassen. Mithilfe intuitiver virtueller Schieberegler können Benutzer zehn verschiedene Dimensionen von Stimmmerkmalen wie Geschlecht, Selbstvertrauen, Begeisterung usw. genau anpassen, um eine einzigartige Stimme zu erstellen, die für verschiedene Anwendungsszenarien geeignet ist. Diese Funktion baut auf Humes zuvor eingeführtem „Empathic Voice Interface 2“ (EVI2) auf und verbessert die Natürlichkeit, den emotionalen Ausdruck und die Anpassbarkeit der Sprache weiter.
Hume AI, ein Startup, das sich auf emotional intelligente Sprachschnittstellen konzentriert, hat kürzlich eine experimentelle Funktion namens „Sprachsteuerung“ eingeführt.
Dieses neue Tool soll Entwicklern und Benutzern dabei helfen, personalisierte KI-Sounds zu erstellen, ohne dass sie Programmier-, KI-Prompt-Engineering- oder Sounddesign-Kenntnisse benötigen. Benutzer können den Klang ganz einfach an ihre Bedürfnisse anpassen, indem sie die Klangeigenschaften präzise anpassen.
Diese neue Funktion baut auf dem zuvor eingeführten Empathic Voice Interface 2 (EVI2) des Unternehmens auf, das die Natürlichkeit, emotionale Reaktionsfähigkeit und Anpassbarkeit der Sprache verbesserte. Im Gegensatz zur herkömmlichen Technologie zum Klonen von Stimmen konzentrieren sich die Produkte von Hume auf die Bereitstellung einzigartiger und ausdrucksstarker Stimmen, um den Anforderungen so unterschiedlicher Anwendungen wie Kundendienst-Chatbots, digitalen Assistenten, Lehrern, Reiseleitern und Barrierefreiheitsfunktionen gerecht zu werden.
Mit der Sprachsteuerung können Entwickler die Stimmeigenschaften in zehn verschiedenen Dimensionen anpassen, darunter Geschlecht, Durchsetzungsvermögen, Aufregung, Selbstvertrauen und mehr.
„Männlich/Weiblich: Geschlechtsspezifische Lautäußerungen, die zwischen maskuliner und femininer schwanken.
Selbstvertrauen: Die Festigkeit der Stimme, zwischen Schüchternheit und Kühnheit.
Auftrieb: Die Schalldichte im Bereich zwischen Deflation und Auftrieb.
Selbstvertrauen: Der Grad der Sicherheit in der Stimme, irgendwo zwischen schüchtern und selbstbewusst.
Begeisterung: Spannung in der Stimme, irgendwo zwischen Ruhe und Begeisterung.
Nasal: Die Offenheit der Stimme, die zwischen klar und nasal reicht.
Entspannung: Der Druck in der Stimme, zwischen Anspannung und Entspannung.
Glätte: Die Textur des Klangs, irgendwo zwischen sanft und Staccato.
Milde: Die Energie hinter dem Klang, irgendwo zwischen sanft und kraftvoll.
Enge: Wie zurückhaltend der Klang ist, zwischen eng und atemlos. "
Benutzer können diese Eigenschaften über virtuelle Schieberegler in Echtzeit verfeinern und so die Anpassung einfach und unkompliziert gestalten. Diese Funktion ist derzeit auf der virtuellen Plattform von Hume verfügbar und Benutzer können darauf zugreifen, indem sie sich einfach kostenlos registrieren.
Die Sprachsteuerung ist derzeit in der Betaversion verfügbar und lässt sich in das Empathic Voice Interface (EVI) von Hume integrieren, sodass sie für eine Vielzahl von Anwendungen verfügbar ist. Entwickler können eine Basisstimme auswählen, ihre Eigenschaften anpassen und die Ergebnisse in Echtzeit in der Vorschau anzeigen. Dieser Prozess gewährleistet Wiederholbarkeit und Stabilität von Sitzung zu Sitzung, was ein Schlüsselmerkmal von Echtzeitanwendungen wie Kundendienst-Bots oder virtuellen Assistenten ist.
Der Einfluss von EVI2 zeigt sich in der Sprachsteuerungsfunktionalität. Frühe Modelle führten Funktionen wie Konversationsansagen und Mehrsprachenfunktionen ein, die den Anwendungsbereich von Sprach-KI-Anwendungen erweiterten. EVI2 unterstützt beispielsweise Reaktionszeiten von weniger als einer Sekunde für natürliche, sofortige Gespräche. Darüber hinaus ermöglicht es die dynamische Anpassung des Sprechstils während der Interaktion, was es zu einem vielseitigen Tool für Unternehmen macht.
Dieser Schritt dient genau dazu, das Problem der Abhängigkeit von voreingestellten Sounds in der KI-Branche zu lösen. Viele Marken oder Anwendungen haben oft Schwierigkeiten, Sounds zu finden, die ihren Anforderungen entsprechen. Humes Ziel ist die Entwicklung emotional sensibler Sprach-KI und die Förderung des Branchenfortschritts. Wenn EVI2 im September 2024 veröffentlicht wird, wird es die Latenz und Kosteneffizienz von Sprache bereits deutlich verbessern und eine sichere Alternative zu Sprachanpassungsfunktionen bieten.
Humes forschungsorientierter Ansatz steht im Mittelpunkt der Produktentwicklung und kombiniert interkulturelle Sprachaufzeichnungen und emotionale Umfragedaten. Diese Methodik bildet die Grundlage von EVI2 und der neu eingeführten Sprachsteuerung und ermöglicht es, die menschliche Wahrnehmung von Geräuschen bis ins kleinste Detail zu erfassen.
Derzeit ist die Sprachsteuerung in der Beta-Version gestartet und wird mit Humes Empathic Voice Interface (EVI) kombiniert, um eine Vielzahl von Anwendungsszenarien zu unterstützen. Entwickler können einen Basissound auswählen, seine Eigenschaften anpassen und die Ergebnisse in Echtzeit in der Vorschau anzeigen, um Konsistenz und Stabilität in Echtzeitanwendungen wie Kundendienst oder virtuellen Assistenten sicherzustellen.
Da sich der Wettbewerb auf dem Markt verschärft, zeichnet sich Hume durch seine personalisierte Stimme und seine emotionale Intelligenzpositionierung im Bereich der Sprach-KI aus. Zukünftig plant Hume, die Funktionen der Sprachsteuerung zu erweitern, einstellbare Abmessungen hinzuzufügen, die Klangqualität zu optimieren und die Auswahl an Grundtönen zu erhöhen.
Offizieller Blog: https://www.hume.ai/blog/introducing-voice-control
Highlight:
? **Hume AI hat eine „Sprachsteuerungs“-Funktion eingeführt, mit der Benutzer ganz einfach personalisierte KI-Stimmen erstellen können. **
?️ ** Für diese Funktion sind keine Programmierkenntnisse erforderlich und Benutzer können die Klangeigenschaften über Schieberegler anpassen. **
? **Hume wurde entwickelt, um unterschiedliche Anwendungsanforderungen durch personalisierte und emotional intelligente Sprach-KI zu erfüllen. **
Alles in allem bietet die „Sprachsteuerungs“-Funktion von Hume AI einen beispiellosen Komfort bei der Anpassung der KI-Sprache. Ihre Personalisierungs- und Emotionsintelligenzfunktionen werden die Anwendung der KI-Sprache in verschiedenen Bereichen erheblich erweitern .