Luchen チームのオープンソース Open-Sora プロジェクトは、720p 高解像度ビデオ生成の分野で画期的な進歩を遂げ、その効率的な生成速度と高品質の出力は驚くべきものです。このプロジェクトはすぐに GitHub で 17,500 個を超えるスターを獲得し、業界で広く注目を集め、Lambda Labs でさえモデルの重みに基づいてデジタル LEGO ユニバースを構築しました。 Open-Sora は使いやすく、テイクアウトの注文と同じくらい便利であるだけでなく、さらに重要なことに、モデルの重量と詳細な技術ルートが開かれ、より多くの開発者や愛好家が参加して Wensheng ビデオ テクノロジーの進歩を促進できるようになります。
最近、Luchen Open-Sora チームは、720p 高解像度 Wensheng ビデオの品質と生成時間において画期的な進歩を達成しました。彼らは、720p 高解像度ビデオの品質と生成時間において大きなニュースをもたらしただけでなく、このオープンソースは、コミュニティ全体が興奮しています。
彼らのオープンソース プロジェクトにより、テイクアウトを注文するのと同じくらい簡単にビデオを生成できるようになったと言っても過言ではありません。 3 月にデビューして以来、GitHub で 17.5,000 個のスターを獲得し、非常に人気があります。
オープンソースのアドレス: https://github.com/hpcaitech/Open-Sora
Open-Sora は、絶妙なポートレート、クールな SF 大作、鮮やかで興味深いアニメーション、スムーズなズーム効果など、16 秒の 720p 高解像度ビデオを簡単に生成できます。いいえ、Nvidia が出資している AI 企業 Lambda Labs でさえ、Open-Sora モデルの重量に基づいてデジタル レゴ ユニバースを作成し、レゴ ファンが創造性の新しい世界を見つけることができるようにしています。
Luchen チームはモデルの重みをオープンソース化しただけでなく、GitHub で技術的なルートも公開し、すべてのプレーヤーが大規模なビデオ モデルのマスターになれるようにしました。この技術レポートでは、ビデオ圧縮ネットワークから拡散モデル アルゴリズム、制御性まで、モデル トレーニングの中核と重要なポイントを詳細に分析し、1.1B 拡散生成モデルを使用してビデオ モデル トレーニングの問題点を解決します。
レポートアドレス: https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_03.md
動画圧縮ネットワークの導入はOpenAIのSoraと同じ方式だ。フレーム抽出を行わずに時間次元で4倍の圧縮を行うことができ、独自のFPSを利用した動画を生成できます。研究チームはまた、最初に空間次元で 8x8 倍の圧縮を達成し、次に時間次元で 4 倍の圧縮を達成できる、単純なビデオ圧縮ネットワーク (VAE) も提案しました。
最新の拡散モデルStable Diffusion3は整流技術により発電品質を向上させました。 Luchen のチームが提供するテクノロジーには、モデルのトレーニングを高速化し、推論の待ち時間を短縮する修正トレーニング、ロジットノルム タイム ステップ サンプリングなどが含まれます。
このレポートでは、データクリーニング、モデルチューニング手法、モデル評価システムの構築など、モデルトレーニングの中核となる詳細も明らかになりました。さまざまなパラメータ調整をサポートする Gradio アプリケーションのワンクリック展開も提供します。
Luchen Open-Sora のオープン ソースは、閉ループを打破し、Vincent Video の革新と開発に活力を注入します。ユーザーはコンテンツ消費者からクリエイターに変わり、企業ユーザーは独立した開発のための新しいスキルを解放しました。
Open-Sora のオープンソースは、Wensheng ビデオ テクノロジーへの参入の敷居を下げ、将来のクリエイティブ コンテンツ生成に無限の可能性をもたらします。今後の開発とさらなるアプリケーション シナリオの探索に期待する価値があります。