베이징 Zhiyuan 인공 지능 연구소(BAAI)가 출시한 최신 3D 세대 모델인 See3D는 라벨이 지정되지 않은 대규모 인터넷 비디오를 사용하여 3D 장면을 생성하는 기술 혁신을 달성했습니다. 이 모델은 기존 카메라 매개변수와 3D 주석에 의존할 필요가 없으며 비디오의 시각적 단서만 사용하여 제어 가능한 카메라 방향과 일관된 형상을 갖춘 다중 뷰 이미지를 생성할 수 있으므로 3D 데이터 수집의 비용과 어려움을 크게 줄일 수 있습니다. See3D는 텍스트 기반, 단일 뷰 및 스파스 뷰 생성을 포함한 다양한 3D 생성 방법을 지원하며 3D 편집 및 가우시안 렌더링이 가능하며 적용 범위는 3D 인터랙티브 월드, 3D 재구성 및 오픈 월드 등 다양한 분야를 포괄합니다. 3D 생성. 강력한 응용 가능성을 보여줍니다. 모델 코드와 데모는 연구원의 추가 탐색 및 적용을 용이하게 하기 위해 오픈 소스로 제공되었습니다.
See3D 모델의 훈련은 1,600만 개의 비디오 클립과 3억 2천만 개의 이미지 프레임을 포함하는 WebVi3D 데이터세트를 기반으로 합니다. 마스크된 비디오 데이터에 시간에 따른 노이즈를 추가함으로써 카메라 없는 3D 생성이 달성됩니다. 장점은 데이터 확장성, 카메라 제어성 및 기하학적 일관성에 있습니다. 복잡한 카메라 궤적에서 장면을 생성하고 이전 및 다음 프레임 뷰의 기하학적 일관성을 유지할 수 있습니다. See3D는 3D 생성 기술 개발을 위한 새로운 아이디어를 제공하며, 이는 카메라가 필요 없는 대규모 주석 데이터에 대한 3D 연구 커뮤니티의 관심을 촉진하고 기존 비공개 소스 3D 솔루션과의 격차를 줄일 것으로 기대됩니다. 프로젝트 주소: https://vision.baai.ac.cn/see3d
See3D 모델은 기발한 디자인을 통해 기존 3D 데이터 수집의 높은 비용 문제를 해결하고 3D 콘텐츠 제작을 위한 보다 편리하고 효율적인 솔루션을 제공합니다. 또한 오픈 소스 특성으로 인해 더 많은 연구자가 참여하여 3D 생성 기술의 발전을 공동으로 촉진할 수 있습니다. 저는 See3D의 등장이 3D 비전 분야에 지대한 영향을 미칠 것이라고 믿습니다.