谷歌發布VideoPoet視訊生成模型,支援十秒長視訊及音訊生成

作者：Eve Cole 更新時間：2025-01-12 09:32:02

谷歌近日發布了其最新的視頻生成模型VideoPoet，這款模型能夠生成時長達10秒的視頻，並自動生成相應的配樂音效。有別於以往的擴散模型，VideoPoet採用大語言模型，這使得它能夠將文字轉視訊、視訊修復和視訊風格化等多種功能整合到一起，大大提高了使用靈活性和效率。其獨特的影片延長機制，透過重複預測最後一幀的下一幀內容，創造出影片無限延長的錯覺，為用戶帶來全新的影片生成體驗。

12月19日,Google發布了影片產生模型VideoPoet。此模型可產生時長達10秒的影片,同時也可根據影片內容自動產生配樂音效。 VideoPoet透過重複預測影片最後一幀的下一幀內容來延長影片,讓使用者感覺影片可以無限延長。與其他模型不同的是,VideoPoet使用的是大語言模型而非擴散模型,因此將文本到視頻、視頻修復、視頻風格化等多種功能集成到同一個模型中,使用更加靈活。

VideoPoet的出現標誌著視訊生成技術的顯著進步，其強大的功能和便利的操作方式預計將在未來廣泛應用於各個領域，為用戶提供更豐富和便利的視訊創作體驗。期待未來VideoPoet能帶來更多令人驚喜的功能與應用。