Downcodes のエディターは、Google ReCapture テクノロジーと、この破壊的なテクノロジーがビデオ編集にどのような変化をもたらすかを理解させます。 ReCapture を使用すると、一般ユーザーがプロ レベルのカメラ モーション調整を簡単に実現でき、ビデオ レンズ言語を再設計し、ビデオ ポストプロダクションに革命的な変化をもたらします。このテクノロジーは、従来の 4D 中間表現方法に依存するのではなく、生成ビデオ モデルのモーション知識を巧みに利用して、ビデオ編集をビデオからビデオへの変換プロセスに変換し、操作プロセスを大幅に簡素化し、ビデオの特性を保持します。そして画質。
Google 研究チームが発表した最新の ReCapture テクノロジーは、従来のビデオ編集方法を覆しています。この革新により、一般ユーザーはプロレベルのカメラの動きの調整を簡単に実装し、すでに撮影されたビデオのレンズ言語を再設計できるようになります。
従来のビデオ ポストプロダクションでは、キャプチャしたビデオのカメラ アングルを変更することが常に技術的な問題でした。既存のソリューションがさまざまなタイプのビデオ コンテンツを処理する場合、複雑なカメラの動きの効果と画像の詳細を同時に維持することが困難なことがよくあります。 ReCapture は異なるアプローチを採用し、従来の 4D 中間表現方法を使用せず、代わりに、生成ビデオ モデルに保存されたモーションの知識を巧みに使用し、安定したビデオの拡散を通じてタスクをビデオからビデオへの変換プロセスとして再定義します。
このシステムでは 2 段階のワークフローが使用されます。最初のステージでは、新しいカメラ位置を使用した初期出力バージョンであるアンカー ビデオを生成します。この段階は、CAT3D などの拡散モデルを通じてマルチアングル ビデオを作成するか、フレームごとの深度推定と点群レンダリングによって達成できます。このバージョンにはタイミングの不一致や視覚的な欠陥がある可能性がありますが、フェーズ 2 の基礎を築きました。
第 2 段階では、マスクされたビデオの微調整を適用し、既存の映像でトレーニングされた生成ビデオ モデルを活用して、リアルなモーション エフェクトとタイミングの変更を作成します。このシステムは、モデル全体を再トレーニングすることなくアンカー ビデオの特定の動的特性を理解して複製できるように、モデルを最適化する時間的 LoRA (Low Rank Adaptation) レイヤーを導入します。同時に、空間 LoRA レイヤーにより、画像の詳細とコンテンツが新しいカメラの動きと一致することが保証されます。これにより、生成ビデオ モデルは、元のビデオの特徴的な動きを維持しながら、ズーム、パン、チルトなどの操作を完了できます。
ReCapture は、ユーザーフレンドリーなビデオ処理において重要な進歩を遂げましたが、まだ研究段階にあり、商用応用にはまだ程遠いです。 Google は多くのビデオ AI プロジェクトを抱えていますが、それらをまだ市場に投入していないことは注目に値します。その中で、Veo プロジェクトが最も商用利用に近いものである可能性があります。同様に、Meta が最近発売した Movie-Gen モデルや、今年初めにリリースされた OpenAI の Sora もまだ商品化されていません。現在、ビデオ AI 市場は、昨年夏に最新の Gen-3Alpha モデルを発売した Runway などのスタートアップ企業が主に主導しています。
ReCapture テクノロジーの登場は、ビデオ編集分野における今後の発展の方向性を示唆しています。まだ研究段階ではありますが、その強力な機能と便利な操作方法は間違いなくビデオ作成にさらなる可能性をもたらします。私たちは、将来このテクノロジーが早期に成熟し、商用応用され、大多数のユーザーにより便利で効率的なビデオ編集体験をもたらすことを期待しています。