谷歌近日发布了其最新的视频生成模型VideoPoet,这款模型能够生成时长达10秒的视频,并自动生成相应的配乐音效。不同于以往的扩散模型,VideoPoet采用大语言模型,这使得它能够将文本转视频、视频修复和视频风格化等多种功能整合到一起,极大地提高了使用灵活性和效率。其独特的视频延长机制,通过重复预测最后一帧的下一帧内容,创造出视频无限延长的错觉,为用户带来全新的视频生成体验。
12月19日,谷歌发布了视频生成模型VideoPoet。该模型可以生成时长达10秒的视频,同时还可以根据视频内容自动生成配乐音效。VideoPoet通过重复预测视频最后一帧的下一帧内容来延长视频,让用户感觉视频可以无限延长。与其他模型不同的是,VideoPoet使用的是大语言模型而非扩散模型,因此将文本到视频、视频修复、视频风格化等多种功能集成到同一个模型中,使用更加灵活。
VideoPoet的出现标志着视频生成技术的一次显著进步,其强大的功能和便捷的操作方式有望在未来广泛应用于各个领域,为用户提供更加丰富和便捷的视频创作体验。 期待未来VideoPoet能带来更多令人惊喜的功能和应用。