iFLYTEK Xinghuo 同時通訳音声大型モデルがリリース：人間の専門翻訳者のレベルに到達 - AI 記事

著者：Eve Cole 更新時間：2025-01-30 02:32:01

iFlytekは大規模なXinghuo同時通訳音声モデルを正式にリリースし、エンドツーエンドの音声同時通訳機能を備えた中国初の大規模モデルの正式発売を記念した。本モデルをiFlytek Translatorに適用することで、英語から中国語への音声同時通訳において遅延がほとんどなく、翻訳速度と精度が大幅に向上し、海外旅行や国際展示会などのさまざまな国際コミュニケーションシーンに最適です。そのコア技術は、翻訳長の逆制御をサポートし、ストリーミング音声合成技術を通じて翻訳の自然さと流暢性を向上させることです。このモデルの性能は、Google Gemini 2.0やOpenAI GPT-4oなどの通訳技術を上回り、最速で5秒未満の同時通訳遅延を実現し、人間の専門翻訳者のレベルに達します。

本日、iFlytekは新たに開発したSpark同時通訳大規模音声モデルを正式にリリースし、エンドツーエンドの音声同時通訳機能を備えた初の国内大規模モデルの正式発売を記念しました。 iFlytek の以前の翻訳テクノロジーと比較して、この革新的なテクノロジーにより、あらゆるシナリオで翻訳効果が大幅に向上し、エンドツーエンドの応答時間が大幅に短縮されました。

Xinghuo 同時通訳音声モデルのリリースにより、ユーザーはよりスムーズで正確な同時通訳体験を実現できます。 iFlytekのデモンストレーションでは、大規模なSpark同時通訳音声モデルを搭載したiFlytek翻訳機が英語・中国語音声同時通訳で遅延がほとんどないことを実現しており、海外旅行や国際展示会などのシーンでの使用に非常に適しています。この最適化により、翻訳された字幕のレンダリング速度が大幅に向上するだけでなく、中国語から英語への翻訳の精度も保証されます。

微信截图_20250115110120.png

Xinghuo 同時通訳音声大規模モデルは、音声からテキストへのエンドツーエンドの翻訳プロセス中に、翻訳長の逆制御をサポートし、意味グループの分割、文脈の理解、および情報の再編成をストリーミング方式で実行できることがわかります。同時に、ストリーミング音声合成テクノロジーは、意味グループの韻律接続と適応的な話速調整もサポートし、翻訳の自然さと流暢さをさらに向上させます。

日常会話、ビジネスコミュニケーション、業界翻訳、その他の困難な同時通訳ニーズなど、国際コミュニケーションのシナリオにおいて、Xinghuo 同時通訳音声大型モデルは優れたパフォーマンスを発揮します。コンテンツの完成度、情報の正確さ、言語品質はいずれも業界トップレベルで、Google Gemini2.0やOpenAI GPT-4oなどの翻訳技術を上回っています。同時通訳の遅延は最速で 5 秒以内で、人間の専門翻訳者のレベルに達します。

iFlytekの大規模なSpark同時通訳音声モデルのリリースは、国内のAI翻訳技術における大きな進歩を意味するだけでなく、将来的には国際コミュニケーションがより便利で効率的になることを示しています。

Xinghuo 同時通訳音声モデルの登場は、AI 翻訳技術の新たなマイルストーンとなり、将来的には国際交流と協力にさらに役立ち、グローバルコミュニケーションの効率と利便性を促進するでしょう。テクノロジーの進歩は今後も人々の生活を向上させ、世界にさらなる可能性をもたらします。