北京智源人工智能研究院(BAAI)最新发布的3D生成模型See3D,实现了利用海量无标注互联网视频进行3D场景生成的技术突破。该模型无需依赖传统的相机参数和3D标注,仅通过视频中的视觉线索即可生成相机方向可控且几何一致的多视角图像,极大降低了3D数据采集的成本和难度。See3D支持多种3D生成方式,包括基于文本、单视图和稀疏视图的生成,并能够进行3D编辑和高斯渲染,其应用范围涵盖了3D互动世界、3D重建和开放世界3D生成等多个领域,展现出强大的应用潜力。模型代码和Demo已开源,方便研究者进一步探索和应用。
See3D模型的训练基于一个包含1600万视频片段和3.2亿帧图像的WebVi3D数据集,通过向掩码视频数据添加时间依赖噪声,实现了无需相机条件的3D生成。其优势在于数据扩展性、相机可控性和几何一致性,能够在任意复杂的相机轨迹下生成场景,并保持前后帧视图的几何一致性。See3D为3D生成技术的发展提供了新的思路,有望推动3D研究社区对大规模无相机标注数据的关注,并缩小与现有闭源3D解决方案的差距。项目地址:https://vision.baai.ac.cn/see3d
See3D模型通过巧妙的设计,解决了传统3D数据采集成本高昂的问题,为3D内容创作提供了更便捷、更高效的解决方案。其开源的特性也鼓励了更多研究者参与其中,共同推动3D生成技术的进步。 相信See3D的出现将会对3D视觉领域产生深远的影响。