人工知能企業 Cartesia は、元の音声のイントネーションやアクセント、その他の表現力を維持したまま音声を変換できる音声変換モデルをリリースしました。この技術は市場では比較的まれです。話者のトーンの変化が失われ、変換された音声がより機械的に聞こえる傾向にある従来の音声変換ツールとは異なり、Cartesia のボイス チェンジャーは、音声変換を維持しながら話者の感情とトーンを復元することにさらに注意を払い、音声変換のリアリズムと自然さを大幅に向上させます。改善されています。 Downcodes のエディターは、この新しいモデルを深く理解するのに役立ちます。
人工知能企業 Cartesia は最近、Voice Changer と呼ばれる音声変換モデルを発表しました。従来の音声変換とは異なり、入力音声を目的の音に変換するだけでなく、原音のイントネーションや強勢などの表現特性を維持したまま変換することができます。
Cartesia 関係者によると、ユーザーは play.cartesia.ai Web サイトでこの機能を試すことができます。現在、同社は関連する API ドキュメントをリリースしており、開発者は docs.cartesia.ai で詳細な手順を参照できます。
記者は、音声の特徴を保持したこの種の変換技術が市場では一般的ではないことに気づきました。既存のツールのほとんどは、音声を変換するときに話者の抑揚が失われる傾向があり、変換された音声がロボットのように聞こえます。
Cartesia は、このテクノロジーがどのように実装されているかをブログで詳しく説明しています。しかし同社は、他人の声を無断で模倣するなど、この技術がもたらす可能性のある倫理的問題にはまだ対応していない。
ボイスチェンジャーモデルの登場は、音声変換技術に新たなブレークスルーをもたらしましたが、倫理的な問題についての懸念も引き起こしました。 テクノロジーの合理的な適用を確保するために、Cartesia が将来これらの潜在的なリスクについてさらに詳細な調査と議論を実施できることが期待されています。 Downcodes編集部では今後もこの技術の今後の展開に注目していきたいと思います。