Hume AI は、プログラミングや AI の専門知識がなくても、ユーザーがパーソナライズされた AI 音声を簡単にカスタマイズできる革新的な機能である実験的機能「Voice Control」のリリースを発表しました。ユーザーは、直感的な仮想スライダーを使用して、性別、自信、熱意など、10 の異なる次元の音声特性を正確に調整して、さまざまなアプリケーション シナリオに適した独自の音声を作成できます。この機能は、ヒュームが以前に発売した「Empathy Voice Interface 2」(EVI2) をベースにして構築されており、音声の自然さ、感情表現、カスタマイズ性がさらに向上しています。
感情的にインテリジェントな音声インターフェイスに焦点を当てている新興企業である Hume AI は、最近「音声コントロール」と呼ばれる実験的な機能を開始しました。
この新しいツールは、開発者とユーザーがコーディングや AI プロンプト エンジニアリング、サウンド デザインのスキルを必要とせずに、パーソナライズされた AI サウンドを作成できるように設計されています。ユーザーはサウンド特性を正確に調整することで、ニーズに合わせたサウンドを簡単にカスタマイズできます。
この新機能は、同社が以前に発売した Empathy Voice Interface 2 (EVI2) に基づいて構築されており、音声の自然さ、感情的な応答性、カスタマイズ性が強化されています。従来の音声クローン技術とは異なり、ヒュームの製品は、カスタマー サービス チャットボット、デジタル アシスタント、教師、ツアー ガイド、アクセシビリティ機能などのさまざまなアプリケーションのニーズを満たす、ユニークで表現力豊かな音声を提供することに重点を置いています。
音声コントロールを使用すると、開発者は、性別、積極性、興奮、自信などを含む 10 の異なる側面に沿って音声特性を調整できます。
「男性/女性: より男性的なものからより女性的なものまで、性別に応じた発声。
自信: 声の堅さ、臆病さと大胆さの間。
浮力: 音の密度。収縮と浮力の間の範囲です。
自信: 恥ずかしさと自信の間の、声の確実性の度合い。
熱意: 声には興奮があり、静けさと熱意の間のどこかにあります。
鼻声: クリアな声から鼻声までの範囲の、声の開放感。
リラクゼーション: 緊張と弛緩の間の声の圧力。
Smoothness: スムーズとスタッカートの間のサウンドの質感。
マイルドネス: 音の背後にあるエネルギー。穏やかさと力強さの間のどこかにあります。
タイトネス: サウンドがどの程度抑制されているかを、タイトから息苦しくまでの範囲で表します。 」
ユーザーは仮想スライダーを使用してこれらのプロパティをリアルタイムで微調整できるため、カスタマイズが簡単かつ簡単になります。この機能は現在ヒュームの仮想プラットフォームで利用可能であり、ユーザーは無料で登録するだけでアクセスできる。
音声コントロールは現在ベータ版で利用可能で、Hume の Empathy Voice Interface (EVI) と統合されているため、幅広いアプリケーションで利用できるようになります。開発者はベース音声を選択し、その特性を調整し、結果をリアルタイムでプレビューできます。このプロセスにより、セッション間での再現性と安定性が保証されます。これは、カスタマー サービス ボットや仮想アシスタントなどのリアルタイム アプリケーションの重要な機能です。
EVI2 の影響は音声コントロール機能に顕著に表れます。初期のモデルでは、音声 AI アプリケーションの範囲を広げる会話プロンプトや多言語機能などの機能が導入されました。たとえば、EVI2 は、自然でインスタントな会話に対する 1 秒未満の応答時間をサポートします。また、対話中に話し方を動的に調整できるため、ビジネスにとって多用途なツールになります。
この動きはまさに、AI 業界におけるプリセットサウンドへの依存の問題を解決するためのものであり、多くのブランドやアプリケーションはニーズを満たすサウンドを見つけることが困難です。ヒューム氏の目標は、感情に敏感な音声 AI を開発し、業界の進歩を促進することです。 EVI2 が 2024 年 9 月にリリースされると、すでに音声の遅延と費用対効果が大幅に改善され、音声調整機能に代わる安全な代替手段が提供されます。
ヒュームのリサーチ主導のアプローチは製品開発の中心であり、異文化間の音声録音と感情調査データを組み合わせています。この方法論は EVI2 と新しく発売された音声コントロールの基礎を形成しており、人間による音の知覚を詳細に捉えることができます。
現在、音声制御はベータ版で開始されており、ヒュームの Empathy Voice Interface (EVI) と組み合わせて、さまざまなアプリケーション シナリオをサポートしています。開発者は、ベースサウンドを選択し、その特性を調整し、結果をリアルタイムでプレビューできるため、カスタマーサービスや仮想アシスタントなどのリアルタイムアプリケーションの一貫性と安定性を確保できます。
市場での競争が激化する中、ヒュームのパーソナライズされた音声と心の知能指数のポジショニングにより、音声 AI 分野で傑出した存在となっています。将来的には、ヒュームは音声コントロールの機能を拡張し、調整可能な寸法を追加し、音質を最適化し、基本的なサウンドの選択肢を増やすことを計画しています。
公式ブログ:https://www.hume.ai/blog/introducing-voice-control
ハイライト:
? **Hume AI は、ユーザーがパーソナライズされた AI 音声を簡単に作成できる「音声コントロール」機能を開始しました。 **
?️ ** この機能にはコーディングのスキルは必要なく、ユーザーはスライダーを使用してサウンド特性を調整できます。 **
? **Hume は、パーソナライズされた感情的にインテリジェントな音声 AI を通じて、さまざまなアプリケーションのニーズを満たすように設計されています。 **
全体として、Hume AI の「音声コントロール」機能は、AI 音声のカスタマイズにこれまでにない利便性をもたらし、そのパーソナライゼーション機能と感情インテリジェンス機能により、さまざまな分野での AI 音声の応用が大幅に拡大されることが期待されます。 。