Doubao、一流中国語を搭載したリアルタイム音声大型モデルをリリース、Shuangshang Online - AI 記事

著者：Eve Cole 更新時間：2025-01-28 11:48:02

Doubao Company がリリースした最新のリアルタイム音声モデルは、中国語対話の分野で画期的な進歩を遂げ、Doubao アプリの 7.2.0 新年バージョンで完全にリリースされました。このモデルは、音声の理解と生成を深く統合して、エンドツーエンドの音声対話システムを作成します。これにより、音声の表現力、制御、感情の受け入れが大幅に向上します。また、低遅延やいつでも会話を中断できるなどの機能も備えており、より多くのメリットをもたらします。自然でスムーズなインタラクティブな体験をユーザーに提供します。このアップデートでは、新しいリアルタイム音声通話機能も追加され、会話の詳細の柔軟な調整、複数の声や方言の模倣、さらには一部の歌を歌う機能もサポートされ、人間と機械の対話のリアリズムがさらに向上します。

最近、Doubao Company は新しいリアルタイム音声モデルの発表を発表し、中国語の対話において「崖のリード」を達成し、AI 対話能力の大幅な向上を示したと主張しました。このモデルは Doubao アプリ (バージョン番号 7.2.0 新年版) で完全にオープンし、ユーザーにより豊かで現実的な音声コミュニケーション体験をもたらします。

レポートによると、Doubao のリアルタイム音声大規模モデルは、音声の理解と生成の深い統合を実現し、エンドツーエンドの音声対話システムを形成します。この技術的進歩により、このモデルは音声表現力、制御性、感情受容性の点で非常に優れたパフォーマンスを発揮し、遅延が少なく、いつでも会話を中断できるため、ユーザーのインタラクティブなエクスペリエンスが大幅に向上します。関係者らは、このテクノロジーは「IQ」を向上させるだけでなく、オンラインの感情知能を備えており、感情をよりよく理解して表現できるようになると述べた。

このアップデートには、Doubao の最新大型モデルを利用したリアルタイム音声通話機能も含まれており、さまざまなシナリオで会話のリズム、声、音量、呼吸音などの詳細を柔軟に調整できます。さらに、新しい音声機能では、さまざまな声を模倣したり、複数の方言や英会話をサポートしたり、一部の曲を歌うこともできます。これらすべてにより、人間と機械の対話のリアリズムは新たなレベルに引き上げられ、ほぼ「人間と機械を区別するのが難しい」という点に達しています。

Doubao の研究開発チームは、この新しいテクノロジーはエンドツーエンドのフレームワークに基づいており、ネイティブな方法を使用して音声とテキストのパターンを深く統合し、統一モデリングを実現していると述べました。このような設計は、音声認識と生成のプロセスを最適化するだけでなく、AI に豊かな「魂」を与え、人間とより適切にコミュニケーションできるようにします。

中国語音声対話分野におけるDoubaoのリアルタイム音声大型モデルの発売は、ユーザーに前例のないインタラクティブ体験を提供し、インテリジェント音声技術の開発を促進します。

Doubao リアルタイム音声モデルの発売は、インテリジェント音声インタラクションテクノロジの大幅な進歩を示しており、中国語対話の分野におけるその卓越したパフォーマンスは刺激的です。将来的には、テクノロジーの継続的な発展に伴い、同様の音声モデルが人々の生活にさらなる利便性と驚きをもたらすと私は信じています。