南京大学の研究チームは、ByteDance および南西大学と協力して、STAR と呼ばれる革新的なビデオ超解像度テクノロジーを発表しました。このテクノロジーは、時空間強化方法とテキストからビデオへのモデルを巧みに組み合わせており、低解像度ビデオ、特にビデオ プラットフォームからダウンロードされたビデオの鮮明さを大幅に向上させることができます。研究者や開発者の利便性を考慮して、STAR モデルの事前トレーニング済みバージョンが GitHub でオープンソース化されました。これは、ビデオ処理の分野における重要な進歩です。このプロジェクトは、I2VGen-XL と CogVideoX-5B の 2 つのモデルを提供し、さまざまなニーズを満たすために複数の入力形式とプロンプト オプションをサポートしています。
研究者と開発者を容易にするために、研究チームは、I2VGen-XL と CogVideoX-5B の 2 つのモデルと関連する推論コードを含む、STAR モデルの事前トレーニング済みバージョンを GitHub でリリースしました。これらのツールの導入は、ビデオ処理分野における重要な進歩を示しています。
このモデルを使用するプロセスは比較的簡単です。まず、ユーザーは事前トレーニング済み STAR モデルを HuggingFace からダウンロードし、指定されたディレクトリに配置する必要があります。次に、テストするビデオ ファイルを準備し、プロンプトなし、自動生成、または手動で入力したプロンプトなど、適切なテキスト プロンプト オプションを選択します。ユーザーはスクリプト内のパス設定を調整するだけで、ビデオの超解像度を簡単に処理できます。
このプロジェクトでは、I2VGen-XL に基づいて 2 つのモデルを特別に設計しました。これらのモデルは、さまざまなニーズを満たすことができるように、さまざまな程度のビデオ劣化処理に使用されます。さらに、CogVideoX-5B モデルは特に 720x480 入力フォーマットをサポートし、特定のシナリオに柔軟なオプションを提供します。
この研究は、ビデオ超解像技術の開発に新しいアイデアを提供するだけでなく、関連分野の研究者に新しい研究の方向性を切り開きます。研究チームは、プロジェクトの基礎を築いたと考えられる I2VGen-XL、VEnhancer、CogVideoX、OpenVid-1M などの最先端テクノロジーに感謝の意を表します。
プロジェクト入口: https://github.com/NJU-PCALab/STAR
ハイライト:
新しいテクノロジー STAR は、テキストとビデオのモデルを組み合わせて、ビデオの超解像度を実現し、ビデオ品質を向上させます。
研究チームは事前トレーニング済みのモデルと推論コードを公開しており、使用プロセスはシンプルかつ明確です。
ユーザーが研究チームと連絡を取り、話し合うことを促すために連絡先情報を提供します。
STAR プロジェクトは GitHub を通じてオープンソース化されており、開発者や研究者が使いやすいシンプルで使いやすい操作プロセスと強力な機能により、ビデオ超解像度の分野に新たな可能性をもたらし、将来の研究に新たな方向性をもたらします。 。 STARテクノロジーが実用化においてさらに大きな役割を果たすことを期待しています。