Meta Reality Labsの研究チームは最近、「Pippo」と呼ばれる革新的な生成モデルの立ち上げを発表しました。これは、単一の通常の写真から最大1kの解像度で集中的な売上高ビデオを生成できることを発表しました。この技術的ブレークスルーは、コンピュータービジョンの分野における最新の進歩を示しているだけでなく、イメージ生成テクノロジーに新しい可能性をもたらします。
Pippoモデルのコアイノベーションは、マルチビュー拡散コンバーターの設計にあります。従来の生成モデルとは異なり、Pippoはパラメーターモデルのフィッティングやカメラパラメーターなどの追加の入力データに依存する必要はありません。ユーザーは1枚の写真を提供するだけで、システムはマルチビュービデオ効果を自動的に生成できるため、より鮮明で3次元の文字イメージを提示できます。
開発者の利便性のために、Pippoは今回はトレーニング前のウェイトなしでコードのみのバージョンとしてリリースされます。研究チームは、AVA-256データセットの完全なモデル、構成ファイル、推論コード、およびサンプルトレーニングコードを提供しました。開発者は、シンプルなコマンドのクローン化とセットアップコードベースを通じて、モデルトレーニングとアプリケーション開発を迅速に開始できます。
Pippoプロジェクトの将来の計画には、コードのさらなる照合と最適化、事前に訓練されたモデルの推論スクリプトの起動が含まれます。これらの改善により、ユーザーエクスペリエンスが大幅に改善され、実際のアプリケーションでこのテクノロジーの広範な人気が促進されます。
プロジェクトリンク:https://github.com/facebookresearch/pippo
キーポイント:
Pippoモデルは、追加の入力なしで、単一の通常の写真から高解像度のマルチビュービデオを生成できます。
コードは公開されており、事前のトレーニングウェイトは含まれていません。
チームは、ユーザーエクスペリエンスを向上させるために、将来、より多くの機能と改善を開始する予定です。