フランスの独立した非営利AI研究所であるKyutaiは、最近、Moshiと呼ばれる音声アシスタントをリリースしました。革新的なAIモデルとして、Moshiはいくつかのコア関数でOpenaiのGPT-4oを模倣するだけでなく、重要な超越性を達成し、音声相互作用技術の新しい開発方向を開きます。
製品ポータル:https://top.aibase.com/tool/moshi-chat
モシの最も人目を引く機能は、その優れた感情的理解と表現スキルです。この音声アシスタントは、フランス語を含む複数の言語バリアントを含むさまざまなアクセントで自然な会話をすることができます。さらに驚くべきことは、Moshiがオーディオ入力と音声出力を同時に処理できることであり、テキスト思考のスムーズなコミュニケーションを維持しながら、70の異なる人間の感情とスピーキングスタイルを表示し、ヒューマンコンピューターの相互作用の自然性と親和性を大幅に改善することです。 。
技術的な実装の観点から、Moshiは、真のリアルタイムインタラクションを可能にする独自のデュアルオーディオストリーミングメカニズムを採用しています。この画期的な機能は、キュータイによって開発された70億のパラメーター言語モデルであるヘリウムの強力なサポートによってサポートされています。
Moshiの音声品質とユーザーエクスペリエンスを確保するために、Kyutaiチームは厳格な微調整プロセスを実施しました。テキストからスピーチ(TTS)テクノロジーを通じて、チームは100,000個の「音声スタイル」の合成会話を変換し、別のTTSモデルによって生成された合成データを使用してトレーニングしました。これらの努力により、最終的にMoshiは驚くべき200msのエンドツーエンドのレイテンシを達成し、ユーザーに近視の反応体験を提供しました。
異なるユーザーのニーズを考慮して、KyutaiはMoshiの軽量バージョンも開発しました。この最適化されたバージョンは、MacBookまたはConsumer GPUでスムーズに実行でき、使用の障壁を大幅に削減し、より幅広いユーザーベースがこの高度な音声相互作用テクノロジーを体験できるようにします。
Kyutai Laboratoryの最新の成果として、MoshiはAI Voice Technologyの大きな可能性を実証するだけでなく、将来のヒューマンコンピューター相互作用方法の新しい可能性も提供します。感情的な理解から多言語のサポート、リアルタイムの相互作用から軽量の展開まで、Moshiのすべての特徴は、AI研究の分野におけるKyutaiの革新的な精神と技術的強さを反映しています。