AI テクノロジーの急速な発展により、言語はコミュニケーションの障壁ではなくなりました。 AI 同時通訳技術の最新の進歩により、言語の違いによる不便さを心配することなく、誰もが異なる言語環境でシームレスにコミュニケーションできるようになります。この技術により、一般の人がいつでも専用の同時通訳者を外出時に「持ち歩く」ことが可能になります。では、テクノロジーが成熟するにつれて、どのアプリケーション シナリオが最初に影響を受け、私たちの日常生活の一部になるのでしょうか?
現在では、AI 翻訳ソフトウェアの多くはテキスト翻訳技術に依存しており、同時通訳の体験をシミュレートするために AI 音声合成機能を徐々に組み込んでいます。たとえば、iFlytek 同時通訳、Youdao 翻訳、Tencent 翻訳などの製品はすべてこの分野の代表です。このタイプのソフトウェアの動作原理は、一般的に、まず話者の音声を迅速に識別してテキストに変換し、次に強力な自然言語処理アルゴリズムを通じてテキストを翻訳し、最後に翻訳された各文を 1 つずつ音声に変換して再生します。 「リアルタイム翻訳」の効果を発揮します。
しかし、この一連の作業により必ず翻訳の遅れが生じます。遅延を減らすために、多くの翻訳ソフトウェアは音声再生機能を放棄し、翻訳されたテキストのみを表示することを選択します。この方式では、音声をリアルタイムに翻訳し、「字幕」という形で継続的に更新することができるため、入力の変化によって翻訳結果が頻繁に調整されたり、再起動されたりしても、ユーザーの読書体験には影響を与えません。音声再生をキャンセルすることで、更新された翻訳コンテンツをより迅速かつ継続的にユーザーに表示できるため、全体的なユーザー エクスペリエンスが向上します。
AI同時通訳モデルは全く異なる原理を採用しています。
近年のAIモデルの爆発的な進歩により、2024年には超低遅延を追求し音声を直接音声に翻訳する同時通訳モデルが徐々に登場し始める。このタイプのモデルの目的は、音声を直接的または間接的にターゲット言語の音声に翻訳することです。その中でも特に注目を集めているのは、Meta (旧 Facebook) のシームレスストリーミング、中国科学院計算機技術研究所の StreamSpeech、Zhifu の StreamSpeech の 3 モデルであり、実際の人の同時通訳に最も近いソリューションとして、優れた性能を備えています。同時通訳v3モデル。このタイプのモデルは、従来の AI 翻訳ソフトウェアとは異なり、人間の翻訳の動作を模倣しようとしますが、話者の音声をすぐに翻訳するのではなく、現在の音声内容が完全かつ適切であるかどうかを判断しながら「聞き」ます。翻訳するにはもっと聞く必要がありますか。
メタは AI 分野、特にオープンソースへの貢献や最先端技術の研究において大きな影響力を持っています。その AI 研究部門である Meta AI は、オープンソース モデルとして複数の人工知能分野で重要な進歩を遂げ、そのオープンソース フレームワーク PyTorch は AI 研究コミュニティで広く使用されています。世界的な AI 研究とアプリケーションの主流ツール。その同時通訳モデルである Seamless-Streaming も今回はオープンソースとなっており、誰でもその中核原則にアクセスできるようになっています。同社が発行した関連論文によると、Seamless-Streaming は翻訳者が即座に翻訳すべきかどうかを決定するために「EMMA」戦略を使用することを選択しています。聞いた内容はまだ追加の入力を待っています。テスト使用では、シームレス ストリーミング モデルは約 3 秒の遅延で正確な翻訳を実現しました。簡単に言えば、翻訳された内容は元の音声より約 3 秒遅れます。従来のAI翻訳ソフト「同時通訳」の遅延15秒と比べ、画期的な最適化を実現し、まさに生身の同時通訳の遅延レベルに達しましたが、残念ながら従来のAIと比較すると精度はまだ不十分です。翻訳。特に中国語などの複雑な言語の翻訳試験では、誤解や「文脈」が理解できないなどの問題が発生します。
中国の最高学術機関であり総合科学研究センターである中国科学院も、StreamSpeech モデルに関する研究をオープンソース化しています。公開された論文によると、StreamSpeech は主に「Alignments」をチェックして翻訳者が待機しているかどうかを判断する方法を使用しています。衝撃的なのは、この翻訳モデルの翻訳遅延が驚くべき 0.3 秒に達していることです。これは人間の平均的な反応時間と同等であることに言及する価値があります。この翻訳速度は、実際の同時通訳者が達成できるレベルをはるかに超えており、話者がその言葉を聞いて脳で理解するまでの時間は 0.3 秒以上です。残念ながら、モデルの現在のオープンソース部分では、モデルは英語-フランス語、英語-スペイン語、英語-ドイツ語の翻訳のみをサポートしており、現在中国語はサポートしていません。また、低遅延モデルのテストでは、翻訳のスムーズさがやや物足りなく、文意をスムーズに翻訳するというよりも、翻訳内容が「逐語的な機械翻訳」に近いものでした。この問題は、遅延が低すぎるために発生し、翻訳機が未完成の文章を「強制的に」翻訳することになります。
Meta や中国科学院とは異なり、Cicada Future はロンドンに拠点を置く小規模な中国の研究開発チームです。チームは現在資金調達の途中であり、まだモデルをオープンソース化していません。このモデルに関する公開情報は、テスト体験ウィンドウと論文の要約のみです。公開論文の要約によると、以前の 2 つのモデルと比較した Zhifu の同時通訳 v3 モデルの革新性は、「さらなる入力を待つかどうか」の機能を翻訳モデルに直接引き継いだことです。現在、社内で 2 つのモデルをテストしています。ミニ モデルは低遅延を主な目的としており、社内テストによると、話者がはっきりと話した場合の翻訳遅延は平均 1 ~ 3 秒であり、翻訳精度は上記 2 つのモデルをはるかに上回っています。 。大型モデルは、平均翻訳遅延が 2 ~ 5 秒であることが特徴で、翻訳の正確さと流暢さは、中国語と英語の混合表現、古詩などの正確な翻訳にも対応します。方言と人気のミーム。問題は、このモデルの内部テストを行う場所の数が現在限られており、このテストが非常に人気があるため、Web ページの翻訳機能が商用化されるまでにはまだ時間がかかるということです。製品であり、現在は「モデル表示」Web ページに似ています。
要約すると、AI 同時通訳の技術的進歩は、より多くの潜在的な可能性を現実にもたらしました。映画『流浪の地球』の「異なる言語を話す二人が、装着後に正常にコミュニケーションできる」というシーンには、すでに遠いところにいます。ヘッドフォン」 それは急速に接近しており、肉眼でも見ることができます。現時点では、このシナリオに最も近い Zhifu Simultaneous Interpretation などのソフトウェアはまだ製品の発売を開始していません。最初のユーザーは誰になりますか?市場について。
この問題について考える前に、同時通訳が実装するコア機能、つまり話者の音声をリアルタイム入力として使用し、翻訳された音声をシミュレートして話者の口調をリアルタイム出力としてシミュレートする機能を振り返ってみましょう。この機能を考慮して、皆さんにインスピレーションを与えることを願って、ここで共有する非常に良い例をいくつか考えました。
1. 客室乗務員のアナウンス
国際線では、客室乗務員は通常、2 か国語または複数の言語を話すことが求められます。乗客へのサービス向上に加えて、より重要なのは、「入国方法や飛行機の乗り継ぎ情報」など、各国の乗客に理解してもらいたい内容を機内で放送することです。同時に異なる言語を話すこと。確かに客室乗務員にとって多言語対応は大きな課題であり、口頭での表現が不明確だと乗客に迷惑をかけることになる。現時点では、AI 同時通訳が役立つ可能性があります。客室乗務員が言語を話すことができることのみが必要であり、AI はその内容を同じ口調で乗客の耳に伝える責任を負います。世界中の人が飛行機の中ではっきりと聞くことができ、旅行をより安全にできます。
2. オンライン教育
オンライン教育のグローバル化が加速するにつれ、世界中から学生を惹きつけたいと考える教育プラットフォームや教育機関が増えています。しかし、言語の違いは、学生が質の高い教育リソースを入手する際の障害となることがよくあります。特に少数言語を母語とする学生は、非母語科目を学習すると理解が難しいだけでなく、数学や物理などの主要科目の学習能力にも影響を及ぼし、結果として多くの優秀な学生が埋もれてしまいます。 。 AI 同時通訳技術はこの障壁を打ち破り、講師にリアルタイムの翻訳サービスを提供します。これにより、講師がどの言語を使用して指導しても、生徒は翻訳されたコンテンツを同時に取得できるため、言語に制限されることがなくなります。グローバル化された教育環境。
AI同時通訳技術は、こうした場面においてリアルタイムかつ正確な翻訳サービスを提供することで、情報伝達の遅延や誤解を回避し、より効率的な国際コミュニケーションや国際協力を促進することができます。それ以外に、今後どのような利用シーンが考えられるのでしょうか?もしかしたら、次のブレークスルーポイントは日常生活の細部に隠されているかもしれません。テクノロジーが進歩し続けるにつれて、AI 同時通訳は徐々に日常のアプリケーション シナリオに組み込まれ、将来のグローバル コミュニケーションに不可欠な部分になるでしょう。