지혜 소스 오픈 소스 라벨 없는 영상 학습 3D 생성 모델 See3D

저자：Eve Cole 업데이트 시간：2024-12-20 11:16:01

BAAI(Beijing Zhiyuan Artificial Intelligence Institute)는 레이블이 지정되지 않은 대규모 인터넷 비디오를 사용하여 비디오에서 3D 모델 생성을 학습하고 실현하는 획기적인 3D 생성 모델인 See3D를 출시했습니다. 3D". See3D 모델은 기존의 카메라 매개변수와 3D 주석에 의존할 필요가 없으며 시각적 조건 기술을 통해 비디오의 시각적 단서를 사용하여 제어 가능한 카메라 방향과 일관된 형상을 갖춘 다중 뷰 이미지를 생성할 수 있으므로 비용과 난이도가 크게 줄어듭니다. 3D 데이터를 획득하여 3D 생성 기술에 새로운 가능성을 가져옵니다.

See3D 모델은 텍스트, 단일 보기 및 스파스 보기에서 3D 모델 생성을 지원하며 3D 편집 및 가우시안 렌더링 기능을 갖추고 있습니다. 모델, 코드 및 데모는 연구원의 심층 연구 및 적용을 용이하게 하기 위해 오픈 소스로 제공되었습니다. See3D는 3D 대화형 세계 잠금 해제, 희소 이미지 기반 3D 재구성, 오픈 월드 3D 생성, 단일 뷰 기반 3D 생성 등 다양한 응용 시나리오를 보유하고 있습니다. 핵심 장점은 데이터 확장성, 카메라 제어성 및 기하학적 일관성에 있습니다. 1600만 개의 비디오 클립과 3억 2천만 개의 이미지 프레임을 포함하는 WebVi3D 데이터 세트를 구축함으로써 3D 생성 기술이 크게 향상되었습니다.

微信截图_20241210151417.png

연구팀은 비디오 데이터를 자동으로 필터링하고 마스킹된 비디오 데이터에 시간에 따른 노이즈를 추가하여 대규모 WebVi3D 데이터 세트를 구축하고 확장 가능한 다시점 확산 모델 훈련을 지원하는 순수 2D 시각적 신호를 생성하여 궁극적으로 카메라 없는 3D를 구현했습니다. 조건 생성. See3D의 등장은 3D 생성 분야에 새로운 아이디어를 가져왔으며, 이는 3D 연구에서 카메라 없는 대규모 주석 데이터의 적용을 촉진하고 3D 데이터 수집 비용을 절감하며 기존 폐쇄형과의 격차를 좁힐 것으로 기대됩니다. -3D 솔루션 소스.

See3D의 장점은 데이터 확장성, 카메라 제어성 및 기하학적 일관성에 있습니다. 복잡한 카메라 궤적에서 장면을 생성하고 전면 및 후면 프레임 뷰의 기하학적 일관성을 유지할 수 있습니다. 이로 인해 See3D는 다양한 3D 생성 애플리케이션에 광범위하게 적용 가능해졌습니다.

See3D는 데이터 세트의 규모를 확장함으로써 3D 생성 기술 개발을 위한 새로운 아이디어를 제공합니다. 이 작업을 통해 카메라가 없는 대규모 주석 데이터에 대한 3D 연구 커뮤니티의 관심을 높이고 3D 데이터 수집 비용을 줄일 수 있을 것으로 기대됩니다. , 비공개 소스 3D 솔루션 간의 기존 격차를 줄입니다.

프로젝트 주소: https://vision.baai.ac.cn/see3d

전체적으로 See3D 모델의 오픈 소스 릴리스는 3D 생성 분야에 새로운 기술 혁신과 개발 방향을 가져왔습니다. 그 효율적이고 편리한 기능은 더 많은 응용 프로그램 시나리오에 혁신을 가져올 것입니다. 미래와 응용.