Meta Reality Labs 的研究團隊近日宣布推出名為“Pippo”的創新生成模型,該模型能夠從單張普通照片生成高達1K分辨率的密集周轉視頻。這一技術突破不僅展示了計算機視覺領域的最新進展,也為圖像生成技術帶來了新的可能性。
Pippo模型的核心創新在於其多視圖擴散轉換器的設計。與傳統的生成模型不同,Pippo無需依賴額外的輸入數據,如擬合參數模型或相機參數。用戶只需提供一張照片,系統便能自動生成多視角的視頻效果,從而呈現出更加生動和立體的人物形象。
為了便於開發者使用,Pippo此次發佈為代碼-only版本,未包含預訓練權重。研究團隊提供了完整的模型、配置文件、推理代碼以及Ava-256數據集的樣本訓練代碼。開發者可以通過簡單的命令克隆和設置代碼庫,快速上手進行模型訓練和應用開發。
Pippo項目的未來計劃包括進一步整理和優化代碼,並推出針對預訓練模型的推理腳本。這些改進將顯著提升用戶體驗,推動該技術在實際應用中的廣泛普及。
項目鏈接:https://github.com/facebookresearch/pippo
劃重點:
Pippo模型能夠從單張普通照片生成高分辨率的多視圖視頻,無需額外輸入。
代碼僅發布,未包含預訓練權重,開發者可自行訓練模型並進行應用。
團隊計劃未來推出更多功能和改進,以增強用戶體驗。