Panjaya が発売した AI ビデオ翻訳ツール BodyTalk は、ビデオ翻訳の分野に革命をもたらしています。このツールは、ビデオ内のキャラクターの声を他の言語に正確に変換すると同時に、キャラクターの顔の表情や体の動きを新しい言語の発話パターンに自然に一致するように調整し、まさに「フェイクイット」の効果を実現します。本物のように」。 Downcodes の編集者が、この驚くべきテクノロジーとその背後にあるストーリーについて詳しく説明します。
Panjaya というスタートアップがビデオ翻訳ゲームに革命を起こしています。 3 年間にわたる極秘の研究開発を経て、同社は画期的な製品 BodyTalk を発売しました。これは、ビデオ内の人々の声を他の言語に正確に変換できる AI ツールです。従来の吹き替えとは異なり、BodyTalk は話者の元の声の特徴を完全に再現するだけでなく、ビデオ内の登場人物の顔の表情や体の動きを自動的に調整して、新しい言語の発話パターンに自然に一致させます。
Panjaya は、イスラエル政府の深層学習専門家であるヒリク シャニとアリエル シャロームによって設立されました。 2021年、二人は政府部門を離れて自分のビジネスを立ち上げ、業界での豊富な経験を持つガイ・ピカルツ氏をCEOとして迎え入れた。 Matcha は、Pickez が以前に設立したストリーミング メディアの発見および推奨プラットフォームであり、2013 年に Apple に買収されました。
現在、BodyTalk は 29 言語の翻訳をサポートしています。そのワークフローは音声翻訳から始まり、次に元の話者を模倣する新しい音声を生成し、最後に新しい言語表現に合わせてビデオ内の話者の口の形と動きを自動的に調整します。処理時間はリアルタイムに近づいていますが、現時点ではビデオの処理にまだ数分かかります。
技術レベルでは、Panjaya はハイブリッド戦略を採用しており、サードパーティの大規模言語モデルを使用し、コア技術を独自に開発しています。 Pickez 氏によると、同社のリップ シンク エンジンは、複数のアングルや複数のスピーカーなどの複雑なビジネス シナリオのニーズを満たすソリューションが市場に存在しないため、社内の AI 研究チームによって完全に開発されました。
同社は現在B2B市場に注力しており、JFrogやTEDなどの機関と協力関係に達している。 TED によると、Panjaya ツールを使用して吹き替えられた講義のビデオ視聴数は 115% 増加し、修了率は 2 倍になったとのことです。同社は今後、スポーツ、教育、マーケティング、医療分野などへの応用拡大を図るとしている。
この技術の悪用を避けるために、Panjaya はツールへのアクセスを厳しく管理しており、合成されたビデオ コンテンツを識別するための透かしなどの機能を開発する予定です。字幕はビデオ コンテンツの標準機能となっていますが(CBS の調査によると、アメリカの視聴者の半数以上が字幕をオンにして視聴しています)、国際市場における吹き替えコンテンツの需要は依然として大きいです。調査機関 CSA のデータによると、特に B2B 分野では、母国語コンテンツがより高いユーザー エンゲージメントをもたらす可能性があります。
この950万米ドルの資金調達ラウンドには、Viola Ventures、R-Squared Ventures、JFrogの共同創設者兼CEOのShlomi Ben Haimを含む多くの投資機関や個人が参加した。将来的には、Panjaya は API インターフェースを開始し、処理速度をさらに向上させ、リアルタイム処理の目標に向けて進む予定です。
BodyTalk の技術的進歩はビデオ翻訳業界に新たな可能性をもたらしており、今後の発展が期待されます。 Panjaya の成功は、現実的な問題を解決する上での AI テクノロジーの大きな可能性を示しています。近い将来、さらに多くの同様の革新的なアプリケーションが登場すると信じています。ダウンコード編集部は今後もその展開に注目していきたい。