Wen Wang 1,2 , Qiuyu Wang 2 , Kecheng Zheng 2 , Hao Ouyang 2 , Zhekai Chen 1 , Biao Gong 2 , Hao Chen 1 ,
Yujun Shen 2 , Chunhua Shen 1
1 중국 절강대학교, 2 Ant Group
우리는 선택된 키포인트의 궤적을 사용자 정의하고 제어를 강화하며 까다로운 사례를 처리함으로써 사용자가 두 이미지 사이에서 원활하게 전환하는 프레임을 생성할 수 있도록 하는 보다 제어 가능하고 대화형인 프레임 보간 방법인 Framer를 제안합니다.
제안된 방법인 Framer는 대화형 프레임 보간을 제공하여 사용자가 선택한 키포인트의 궤적을 조정하여 전환을 사용자 정의할 수 있습니다. 이 접근 방식은 이미지 변환의 모호성을 완화하여 로컬 동작을 훨씬 더 세밀하게 제어할 수 있게 하고 까다로운 사례(예: 모양과 스타일이 다른 개체)를 처리하는 모델의 능력을 향상시킵니다. Framer에는 자동으로 키포인트를 추정하고 궤적을 개선하여 프로세스를 단순화하고 동작이 자연스럽고 시간적으로 일관된 결과를 가능하게 하는 "자동 조종" 모드도 포함되어 있습니다.
이 작업은 사전 훈련된 대규모 이미지-비디오 확산 모델(Stable Video Diffusion)을 기본 모델로 활용합니다. 이는 비디오 보간을 용이하게 하기 위해 추가적인 끝 프레임 조절을 도입하고 사용자 상호 작용을 위한 지점 궤적 제어 분기를 통합합니다.
Framer는 시각적 품질과 자연스러운 모션 측면에서 기존 프레임 보간 방법보다 성능이 뛰어납니다. 특히 복잡한 모션과 상당한 모양 변화가 관련된 경우에 더욱 그렇습니다. FVD(Fréchet Video Distance)를 이용한 정량적 평가는 다른 방법에 비해 우수한 성능을 보여줍니다. 사용자 연구에 따르면 Framer의 출력에 대한 강한 선호도가 나타나 현실적이고 시각적으로 매력적인 결과를 생성하는 효과가 강조됩니다.
비디오는 공간적으로 압축됩니다. 우리는 독자들에게 원본 비디오의 프로젝트 페이지를 추천합니다.
이미지 시작 | 궤적 및 보간 결과 입력 | 종료 이미지 |
이미지 시작 | 궤적 및 보간 결과 입력 | 종료 이미지 |
이미지 시작 | 보간 결과 | 종료 이미지 |
이미지 시작 | 보간 결과 | 종료 이미지 |
이미지 시작 | 보간 결과 | 종료 이미지 |
이미지 시작 | 보간 결과 | 종료 이미지 |
우리 코드가 유용하다면 우리 논문을 인용해 보세요.
@article { wang2024framer ,
title = { Framer: Interactive Video Interpolation } ,
author = { Wang, Wen and Wang, Qiuyu and Zheng, Kecheng and Ouyang, Hao and Chen, Zhekai and Gong, Biao and Chen, Hao and Shen, Yujun and Shen, Chunhua } ,
journal = { arXiv preprint https://arxiv.org/abs/2410.18978 } ,
year = { 2024 }
}
학술용으로 사용할 경우 이 프로젝트는 2조 BSD 라이선스에 따라 라이선스가 부여됩니다. 상업적인 용도로 사용하려면 C Shen에 문의하세요.