Meta Reality Labs 的研究团队近日宣布推出名为“Pippo”的创新生成模型,该模型能够从单张普通照片生成高达1K分辨率的密集周转视频。这一技术突破不仅展示了计算机视觉领域的最新进展,也为图像生成技术带来了新的可能性。
Pippo模型的核心创新在于其多视图扩散转换器的设计。与传统的生成模型不同,Pippo无需依赖额外的输入数据,如拟合参数模型或相机参数。用户只需提供一张照片,系统便能自动生成多视角的视频效果,从而呈现出更加生动和立体的人物形象。
为了便于开发者使用,Pippo此次发布为代码-only版本,未包含预训练权重。研究团队提供了完整的模型、配置文件、推理代码以及Ava-256数据集的样本训练代码。开发者可以通过简单的命令克隆和设置代码库,快速上手进行模型训练和应用开发。
Pippo项目的未来计划包括进一步整理和优化代码,并推出针对预训练模型的推理脚本。这些改进将显著提升用户体验,推动该技术在实际应用中的广泛普及。
项目链接:https://github.com/facebookresearch/pippo
划重点:
Pippo模型能够从单张普通照片生成高分辨率的多视图视频,无需额外输入。
代码仅发布,未包含预训练权重,开发者可自行训练模型并进行应用。
团队计划未来推出更多功能和改进,以增强用户体验。