Google は最近、最新のビデオ生成モデル VideoPoet をリリースしました。これは、最長 10 秒のビデオを生成し、対応するサウンドトラックの音響効果を自動的に生成できます。以前の普及モデルとは異なり、VideoPoet は大規模な言語モデルを使用しているため、テキストからビデオへの変換、ビデオ修復、ビデオ スタイライゼーションなどの複数の機能を統合でき、使用の柔軟性と効率が大幅に向上します。独自のビデオ拡張メカニズムは、最後のフレームの次のフレームの内容を繰り返し予測することで、ビデオが無限に拡張されるかのような錯覚を生み出し、ユーザーに新しいビデオ生成エクスペリエンスをもたらします。
Googleは12月19日、ビデオ生成モデルVideoPoetをリリースした。このモデルは、最大 10 秒のビデオを生成でき、ビデオの内容に基づいてサウンドトラック効果音を自動生成することもできます。 VideoPoet は、ビデオの最後のフレームの次のフレームの内容を繰り返し予測することでビデオを拡張し、ユーザーにビデオを無限に拡張できるように感じさせます。他のモデルとは異なり、VideoPoet は拡散モデルではなく大規模な言語モデルを使用するため、テキストからビデオへの変換、ビデオ修復、ビデオ スタイライゼーションなどの複数の機能を同じモデルに統合し、より柔軟に使用できます。
VideoPoet の登場は、ビデオ生成技術の大きな進歩を意味し、その強力な機能と便利な操作方法は、今後さまざまな分野で広く使用され、ユーザーにより豊かで便利なビデオ作成体験を提供することが期待されます。 私たちは、VideoPoet が将来さらに驚くべき機能やアプリケーションを提供することを楽しみにしています。