Colossal-AI チームは、複製コストの削減とパフォーマンスの向上を目的として、Sora アルゴリズム複製ソリューション Open-Sora をオープンソース化しました。このソリューションは、データ処理からトレーニング推論までのプロセス全体をカバーし、複数のモデル構造、ビデオ圧縮方法、並列トレーニングの最適化をサポートし、トレーニング効率を大幅に向上させます。 Open-Sora は、DiT-XL/2 モデルを使用して、単一の H800 SXM 8*80GB GPU で 600K シーケンス長のパフォーマンス テストを実施しました。その結果、パフォーマンスの向上とコストの削減が 40% を超えることがわかりました。このプロジェクトは、研究者や開発者に利便性を提供する、完全かつ効率的な Sora 再現ソリューションを提供することに取り組んでいます。
Colossal-AI は、完全な Sora 再帰アーキテクチャ ソリューション Open-Sora をオープンソース化し、再帰コストを 46% 削減し、モデル トレーニングの入力シーケンスの長さを 819K パッチに拡張すると主張しています。 Sora アルゴリズム再現ソリューション Sora の技術レポートでは、Sora はビデオ圧縮ネットワークを使用してさまざまなサイズのビデオを潜在空間内の時空間ブロックのシーケンスに圧縮し、次に拡散トランスフォーマーを使用してノイズを除去し、最後にデコードしてビデオを生成します。 Open-Sora は、データ処理からトレーニング推論までのプロセス全体を含む、完全な Sora 回帰アーキテクチャ ソリューションを提供するために Sora が使用できるトレーニング パイプラインを要約しています。現在、Open-Sora は、データ処理からトレーニング推論までの全プロセスを含む完全な Sora 回帰アーキテクチャ ソリューションを提供しており、動的解像度、複数のモデル構造、複数のビデオ圧縮方法、および複数の並列トレーニングの最適化をサポートしています。パフォーマンスの面では、単一の H800 SXM 8*80GB GPU での DiT-XL/2 モデルのパフォーマンス テストを例に挙げると、600K のシーケンス長で、Open-Sora ソリューションは 40% 以上のパフォーマンス向上を示しています。ベースライン ソリューションと比較してコストが削減されます。 Open-Sora オープン ソース アドレス: https://github.com/hpcaitech/Open-Sora。Open-Sora のオープン ソースは研究者や開発者に貴重なリソースを提供し、ビデオ生成テクノロジーの進歩を加速します。その高効率と低コストにより、より多くの人がこの分野の研究に参加するようになることが期待されています。今後もOpen-Soraのさらなる改良・開発を進め、AI動画生成分野にさらに貢献していきたいと考えております。