Meta Reality Labs의 연구팀은 최근 "PIPPO"라는 혁신적인 생성 모델의 출시를 발표했으며, 이는 단일 정상 사진에서 최대 1K 해상도로 집중적 인 회전 비디오를 생성 할 수 있습니다. 이 기술 혁신은 컴퓨터 비전 분야의 최신 발전을 보여줄뿐만 아니라 이미지 생성 기술에 새로운 가능성을 제공합니다.
PIPPO 모델의 핵심 혁신은 멀티 뷰 확산 변환기의 설계에 있습니다. 기존 생성 모델과 달리 PIPPO는 피팅 매개 변수 모델 또는 카메라 매개 변수와 같은 추가 입력 데이터에 의존 할 필요가 없습니다. 사용자는 하나의 사진 만 제공하면 시스템이 멀티 뷰 비디오 효과를 자동으로 생성 할 수 있으므로보다 생생하고 3 차원 문자 이미지를 나타냅니다.
개발자의 편의를 위해 PIPPO는 이번에는 사전 훈련 가중치없이 코드 전용 버전으로 출시됩니다. 연구팀은 AVA-256 데이터 세트에 대한 완전한 모델, 구성 파일, 추론 코드 및 샘플 교육 코드를 제공했습니다. 개발자는 간단한 명령 복제 및 코드베이스 설정을 통해 모델 교육 및 응용 프로그램 개발을 신속하게 시작할 수 있습니다.
PIPPO 프로젝트의 향후 계획에는 추가 콜로레이션 및 코드 최적화 및 미리 훈련 된 모델에 대한 추론 스크립트 시작이 포함됩니다. 이러한 개선은 사용자 경험을 크게 향상시키고 실제 응용 프로그램 에서이 기술의 광범위한 인기를 촉진 할 것입니다.
프로젝트 링크 : https://github.com/facebookresearch/pippo
핵심 사항 :
PIPPO 모델은 추가 입력없이 단일 일반 사진에서 고해상도 멀티 뷰 비디오를 생성 할 수 있습니다.
코드는 게시되며 사전 훈련 가중치는 포함되지 않습니다.
팀은 사용자 경험을 향상시키기 위해 향후 더 많은 기능과 개선을 시작할 계획입니다.