メタは、サウジアラビアのキングアブドラ工科大学(カウスト)と提携して、マルディーニと呼ばれる新しい一連のビデオ拡散モデルを立ち上げました。このモデルは、ビデオ補間、画像間変換、ビデオ拡張など、さまざまなビデオ生成タスクを効率的に完了し、高品質のビデオ作成プロセスを大幅に簡素化できます。 Mardiniは、計画モデルと生成モデルの組み合わせを使用して、マスク自己網羅(MAR)メソッドと拡散プロセスを介したステップが少ない高品質のビデオを生成し、パフォーマンスと効率に大きな利点を示し、ビデオ作成者に強力なツールを提供し、新しい業界ベンチマークを設定します。
昨年に基づいて、MetaはAIビデオを生成する分野でさらに努力しました。以前は、EMU VideoやEMU Editなどのテキストからビデオへの編集モデルを起動していました。今年、高度なビデオ編集映画Genも発売されました。これは、Metaがビデオ作成者により強力なツールを提供することに取り組んでいることを示しています。
Mardiniの力は、任意の数のマスクされたフレームに基づいてビデオを生成できることであり、ビデオ補間、画像からビデオへの変換、ビデオ拡張などのさまざまな世代のタスクをサポートすることです。
画像からビデオの結果その中でも、Mardiniの主なアプリケーションは画像からビデオへの生成です。この機能は、条件付き入力として中央に配置された参照フレームを使用し、16の追加フレームを生成することにより実証されます。公式に生成されたビデオの例では、8fpsでレンダリングされた17フレームを2秒の滑らかな2秒のビデオで生成できます。
ビデオエクステンションの結果Mardiniを使用すると、既存のビデオを長期間調整してビデオを拡張することもできます。 5フレームの参照ビデオから2秒の拡張子を生成することにより、各シーケンスに12の新しいフレームを追加します。
ビデオ補間の結果Mardiniは、最初のフレームと最後のフレームを調整信号として使用して中間フレームを生成することにより、ビデオ補間を実装します。これらの境界フレームが同じ場合、Mardiniはシームレスなループビデオを作成できます。
Mardiniの仕組みは非常に興味深いものです。主に計画モデルと生成モデルの2つの部分で構成される、高度で効率的なビデオ生成テクノロジーを採用しています。まず、計画モデルでは、Mask Autoregression(MAR)メソッドを使用して低解像度の入力フレームを解釈し、作成する必要があるフレームのガイダンス信号を生成します。軽量生成モデルは、拡散プロセスを通じて高解像度の詳細なフレームを生成し、最終的なビデオが滑らかで視覚的に良好であることを保証します。
複雑な事前訓練を受けた画像モデルを必要とする多くのビデオモデルとは異なり、Mardiniは、無効なビデオデータを使用してゼロからトレーニングされると主張しています。これは、進歩的なトレーニング戦略を採用しているためです。これにより、トレーニング中にマスキングフレームのマスキング方法を柔軟に調整することにより、モデルがさまざまなフレーム構成に適切に対処できるようになります。
Mardiniの特徴的な特徴は、その柔軟性とパフォーマンスです。それは強力であるだけでなく、効率的であり、より大きなタスクに適しています。このモデルは、既存のビデオクリップを滑らかにするか、完全なシーケンスをゼロから作成しているかどうかにかかわらず、ビデオ補間、画像間生成、ビデオの拡張など、さまざまなタスクを処理できます。
パフォーマンスの観点から、Mardiniは新しいベンチマークを設定して、より少ないステップで高品質のビデオを生成するため、より複雑な代替品よりもコストと時間的にはよりコストと時間的になります。 「私たちの研究は、モデリング戦略がさまざまな補間とアニメーションのベンチマークで競争力を示し、同等のパラメータースケールでの計算需要を削減することを示しています」と公式の研究論文は述べています。
プロジェクトの入り口:https://mardini-vidgen.github.io/
キーポイント:
Mardiniは、MetaとKaustによって開始された新世代のビデオ生成モデルであり、さまざまなビデオ作成タスクを簡単に完成させることができます。
このモデルは、計画モデルと生成モデルの組み合わせを通じて、効率的なビデオ補間と画像間生成を実現します。
Mardiniは、より少ないステップで高品質のビデオを生成し、作成の柔軟性と効率を大幅に改善します。
要するに、マルディーニの出現は、ビデオ生成テクノロジーの大きな進歩を遂げ、その効率的なパフォーマンスと柔軟なアプリケーションシナリオがビデオ作成の分野に新しい可能性をもたらします。 将来的には、マルディーニは映画制作、アニメーション制作、およびビデオ生成を必要とする他の分野でより大きな役割を果たす可能性があります。