北京知源人工知能研究所 (BAAI) がリリースした最新の 3D 世代モデルである See3D は、大量のラベルのないインターネット ビデオを使用して 3D シーンを生成するという技術的進歩を達成しました。このモデルは、従来のカメラ パラメータや 3D 注釈に依存する必要がなく、ビデオ内の視覚的な手がかりのみを使用して、制御可能なカメラの方向と一貫したジオメトリを備えたマルチビュー画像を生成できるため、3D データ収集のコストと難易度が大幅に削減されます。 See3D は、テキストベース、シングルビュー、スパースビューの生成など、さまざまな 3D 生成方法をサポートしており、3D 編集やガウス レンダリングが可能であり、その応用範囲は 3D インタラクティブ ワールド、3D 再構成、オープンワールドなどの多くの分野をカバーしています。 3D 生成は強力なアプリケーションの可能性を示します。研究者によるさらなる探索と応用を容易にするために、モデルのコードとデモはオープンソース化されています。
See3D モデルのトレーニングは、1,600 万のビデオ クリップと 3 億 2,000 万フレームの画像を含む WebVi3D データセットに基づいており、マスクされたビデオ データに時間依存のノイズを追加することで、カメラフリーの 3D 生成が実現されます。その利点は、データのスケーラビリティ、カメラの制御性、および幾何学的一貫性です。複雑なカメラの軌跡の下でシーンを生成し、前後のフレーム ビューの幾何学的一貫性を維持できます。 See3D は、3D 生成テクノロジーの開発に新しいアイデアを提供します。これにより、3D 研究コミュニティの、大規模なカメラフリーのアノテーション データへの注目が促進され、既存のクローズドソース 3D ソリューションとのギャップが狭まることが期待されます。プロジェクトアドレス: https://vision.baai.ac.cn/see3d
See3D モデルは、賢い設計により、従来の 3D データ収集の高コストの問題を解決し、3D コンテンツ作成のためのより便利で効率的なソリューションを提供します。また、そのオープンソースの性質により、より多くの研究者が参加し、共同で 3D 生成テクノロジーの進歩を促進することが促進されます。 See3Dの登場は3D視覚の分野に大きな影響を与えると私は信じています。