吉利汽車は音声合成の分野で画期的な進歩を遂げ、独自に開発したHAM-TTS大型モデル「Xingrui」の性能が業界ベンチマークのVALL-Eを上回り、広く注目を集めた。 Downcodes の編集者が、このテクノロジーの核となる利点と将来の影響について詳しく説明します。
吉利汽車は最近、音声合成の分野で大きな進歩を遂げ、独自に開発した大型モデル HAM-TTS の性能が業界のベンチマークである VALL-E を上回り、業界で広く注目を集めています。 Xingrui と名付けられたこの大規模な AI モデルは、発音の正確さ、自然さ、話者の類似性などの主要な指標で大幅な改善を達成しました。
HAM-TTS モデルは、トークンベースのゼロサンプルのテキスト読み上げ階層音響モデリング テクノロジーを使用しており、スマート コックピットでのユーザー インタラクション エクスペリエンスが大幅に向上します。同じ 4 億パラメータの条件下では、HAM-TTS モデルの文字エラー率は VALL-E と比較して 1.5% 低下し、8 億パラメータの完全なモデルでは文字エラー率は 2.3% 低下しました。スタイルの一貫性、ピッチの一貫性、および総合スコアの点で、HAM-TTS モデルは 10% の大幅な改善を達成しました。
Xingrui モデルの利点はパフォーマンス指標に反映されているだけでなく、実用性も優れています。アバター連携や音声ナビゲーション、ニュース放送などさまざまなシーンで話者の音声の安定性を保ち、状況に応じて声のトーン、イントネーション、間、感情をインテリジェントに調整します。さらに注目すべき点は、このモデルは方言や外国語を含む異なる言語をシームレスに切り替えることができ、業界で通常必要とされる 10 秒以上をはるかに上回るわずか 3 秒のサンプル入力でサウンド再生を完了できることです。
Geely チームは、階層化された音響モデリングを導入することで、モデルのパフォーマンスを革新的に向上させました。彼らは不正確な発音の問題を解決し、潜在空間変数シーケンス プレディクターとテキスト アライナーを導入してテキストと音声のマッチングをより正確にし、合成音声をより自然でスムーズにしました。
この躍進は、吉利汽車のインテリジェント技術における研究開発の強みを証明するだけでなく、AI分野における吉利汽車の野心を反映している。吉利汽車の Xingrui AI 大型モデル システムは、マルチモーダル大型モデルや言語大型モデルなどの多方向に拡張され、スマート カー テクノロジーの基礎を築きました。同時に、吉利汽車のクラウド コンピューティングの総能力も、昨年の 81 ペタフロップス/秒から 102 ペタフロップス/秒に増加しており、テクノロジーへの継続的な投資を示しています。
電動化の初期の成功により、吉利汽車のインテリジェンス分野における躍進は、自動車産業の将来の発展に新たなアイデアと可能性をもたらしました。これは、従来の自動車メーカーに対する私たちの理解を再定義するだけでなく、インテリジェンスが将来の自動車業界の主要な競争分野になることを示しています。
論文アドレス: https://arxiv.org/pdf/2403.05989
吉利汽車の「星瑞」の成功は、人工知能の分野における中国の自動車産業の台頭を示しており、その技術的進歩は将来の自動車のインテリジェント開発の方向性に大きな影響を与えるだろう。人工知能の分野における吉利汽車の更なるイノベーションに期待しています。