谷歌近日發布了其最新的視頻生成模型VideoPoet,這款模型能夠生成時長達10秒的視頻,並自動生成相應的配樂音效。有別於以往的擴散模型,VideoPoet採用大語言模型,這使得它能夠將文字轉視訊、視訊修復和視訊風格化等多種功能整合到一起,大大提高了使用靈活性和效率。其獨特的影片延長機制,透過重複預測最後一幀的下一幀內容,創造出影片無限延長的錯覺,為用戶帶來全新的影片生成體驗。
12月19日,Google發布了影片產生模型VideoPoet。此模型可產生時長達10秒的影片,同時也可根據影片內容自動產生配樂音效。 VideoPoet透過重複預測影片最後一幀的下一幀內容來延長影片,讓使用者感覺影片可以無限延長。與其他模型不同的是,VideoPoet使用的是大語言模型而非擴散模型,因此將文本到視頻、視頻修復、視頻風格化等多種功能集成到同一個模型中,使用更加靈活。
VideoPoet的出現標誌著視訊生成技術的顯著進步,其強大的功能和便利的操作方式預計將在未來廣泛應用於各個領域,為用戶提供更豐富和便利的視訊創作體驗。 期待未來VideoPoet能帶來更多令人驚喜的功能與應用。