北京知源人工知能研究所 (BAAI) は、画期的な 3D 生成モデル See3D をリリースしました。これは、大量のラベルのないインターネット ビデオを使用して学習し、ビデオから 3D モデルを生成することを実現します。 3D。 See3D モデルは、従来のカメラ パラメータや 3D 注釈に依存する必要がなく、視覚条件テクノロジを通じて、ビデオ内の視覚的な手がかりのみを使用して、制御可能なカメラの方向と一貫したジオメトリを備えたマルチビュー画像を生成することができ、コストと難易度を大幅に削減します。 3Dデータを取得し、3D生成技術に新たな可能性をもたらします。
See3D モデルは、テキスト、シングル ビュー、スパース ビューからの 3D モデルの生成をサポートし、3D 編集およびガウス レンダリング機能を備えています。研究者による詳細な研究と応用を容易にするために、モデル、コード、デモはオープンソース化されています。 See3D には、3D インタラクティブな世界のロック解除、まばらな画像に基づく 3D 再構成、オープンワールド 3D 生成、シングルビューベースの 3D 生成など、幅広いアプリケーション シナリオがあります。その主な利点は、データのスケーラビリティ、カメラの制御性、幾何学的一貫性にあり、1,600 万のビデオ クリップと 3 億 2,000 万フレームの画像を含む WebVi3D データ セットを構築することで、3D 生成テクノロジの大幅な向上を実現しました。
研究チームは、ビデオ データを自動的にフィルタリングし、マスクされたビデオ データに時間依存ノイズを追加することで大規模な WebVi3D データセットを構築し、スケーラブルなマルチビュー拡散モデルのトレーニングをサポートする純粋な 2D 視覚信号を生成し、最終的にカメラフリー 3D を実現しました。条件の生成。 See3D の出現は 3D 生成の分野に新しいアイデアをもたらし、3D 研究における大規模なカメラフリーのアノテーション データの適用を促進し、3D データ収集のコストを削減し、既存のクローズド データとのギャップを縮めることが期待されています。 -ソース 3D ソリューション。
See3D の利点は、データのスケーラビリティ、カメラの制御性、および幾何学的一貫性です。複雑なカメラの軌跡の下でシーンを生成し、前後のフレーム ビューの幾何学的一貫性を維持できます。これにより、See3D はさまざまな 3D 作成アプリケーションに広く適用できるようになります。
データセットのサイズを拡大することで、See3D は 3D 生成技術の開発に新しいアイデアを提供します。この取り組みにより、3D 研究コミュニティが大規模なカメラフリーのアノテーション データに注目するようになり、3D データ取得のコストが削減されることが期待されています。 、クローズドソース 3D ソリューション間の既存のギャップを縮小します。
プロジェクトアドレス: https://vision.baai.ac.cn/see3d
全体として、See3D モデルのオープンソース リリースは、3D 生成の分野に新たな技術的進歩と開発の方向性をもたらし、その効率的で便利な機能は、より多くのアプリケーション シナリオに革新をもたらすことになるでしょう。将来とアプリケーション。