Alibaba は 11 月に I2VGen-XL 画像生成ビデオ モデルをリリースし、そのコードとモデルはついに正式にオープンソースになりました。このモデルでは 2 段階の処理方法が使用され、第 1 段階では意味の一貫性が確保され、第 2 段階では短いテキストを統合することでビデオの詳細と解像度が向上します。 I2VGen-XL は、大規模なデータ トレーニングを通じて、ビデオ生成分野でのより高いセマンティック精度、細部の連続性、明瞭さを実証し、画像からビデオ生成の分野に新たなブレークスルーをもたらしました。
アリババは 11 月に公開された論文でオープンソースの I2VGen-XL 画像生成ビデオ モデルを発表しましたが、今回ついにその具体的なコードとモデルをリリースしました。モデルは 2 つの段階を通じて処理されます。最初は意味の一貫性を確保するための基本段階、次に短いテキストを統合することでビデオの詳細を改善し、解像度を向上させる最適化段階です。研究チームは、I2VGen-XL モデルのセマンティック精度、詳細の連続性、およびビデオ生成の明瞭さがより高くなるように、最適化のために大量のデータを収集しました。詳細なコードは GitHub にあります。I2VGen-XL モデルのオープンソースは、研究者や開発者に貴重なリソースを提供し、画像生成ビデオ技術のさらなる開発の促進に役立ちます。その効率的な処理フローと優れた生成効果は、将来の AI 生成ビデオ技術の大きな可能性を示しています。 I2VGen-XL をベースにしたさらに革新的なアプリケーションに期待してください。