Doubao アプリが新しい音声モードを開始し、GPT-4o よりも前に歌とロールプレイングが可能に - AI 記事

著者：Eve Cole 更新時間：2025-01-28 14:00:03

Doubao Appは、2025年1月20日に最新の「エンドツーエンド」音声大型モデルをリリースし、リアルタイム音声通話機能を大幅にアップデートしました。このアップデートは、Doubao が音声インタラクションの分野で大きな進歩を遂げたことを示しています。従来の ASR、LLM、TTS カスケードソリューションに依存せず、音声認識、理解、生成を同じモデルに統合し、よりスムーズな音声対話を実現します。インテリジェントな音声対話エクスペリエンス。このアップデートの焦点は、音声インタラクションの擬人化を改善し、AI が人間の感情をよりよく理解し、反応できるようにすることです。

2025 年 1 月 20 日、Doubao App は最新の「エンドツーエンド」音声モデルを正式にリリースし、リアルタイム音声通話機能に重要なアップデートを行いました。この進歩は、音声インタラクションの分野における Doubao のさらなる飛躍を示し、音声認識、理解、生成を統合するこれまでの ASR (自動音声認識)、LLM (大規模言語モデル)、TTS (Tensheng Audio) のカスケードソリューションを上回りました。同じモデルで。

「Smart Emergence」によるテストの結果、Doubao の新バージョンの最大のハイライトは、人間のような表現能力と感情出力を備え、対話の流暢さと知能レベルが向上したことです。特に、「ソウルシンガー」モードと「ヴァリアスマスター」モードでは、Doubao が歌うだけでなく、豊かなロールプレイングも実行できるため、ユーザーインタラクションの新たなお気に入りとなっています。たとえば、ユーザーが Doubao に有名人の Yu Shuxin の声を真似するように頼んだとき、Doubao はキャラクターの口調をうまく再現しただけでなく、彼自身のユニークな個性を遊び心たっぷりに表現しました。

さらに注目すべき点は、Doubao は複雑な指示や専門的なプロンプトを必要とせずに、自然な会話の中で即興で歌を作ることができることです。ユーザーはDoubaoに自由に歌ってもらうことができ、歌詞のテーマを指定することもできる。豆瓣の演奏では時折小さなミスもあったものの、反応速度と即興能力は素晴らしく、擬人化能力の高さを示していた。

さらに、Doubao に新たに追加された 2 つの性格モード、つまり「小さなバッグ」と「誇張されたマスター」もユーザーに新鮮さをもたらします。これらの性格パターンにより、Doubao はさまざまな状況でさまざまな感情やスタイルを表現できるため、インタラクションの楽しさと現実感が高まります。

音声インタラクション技術の発展が進む今日、Doubao の今回のアップデートは、AI の応用シナリオを感情的な交友関係、心理カウンセリングなどの分野に拡大するだけでなく、AI の感情的なコミュニケーション能力を人間に近づけるものです。この変革により、Doubao が競争の激しい市場で地位を占め、AI インタラクションの将来の発展をリードできるようになるのは間違いありません。

Doubao アプリの今回のアップデートは、テクノロジーの画期的な進歩を達成しただけでなく、より重要なことに、ユーザーエクスペリエンスの質的飛躍を達成し、AI インタラクションの今後の発展に新たな方向性をもたらしました。今後のさらなるイノベーションに期待する価値があります。上。