谷歌发布VideoPoet视频生成模型,支持十秒长视频及音频生成

作者：Eve Cole 更新时间：2025-01-12 09:32:02

谷歌近日发布了其最新的视频生成模型VideoPoet，这款模型能够生成时长达10秒的视频，并自动生成相应的配乐音效。不同于以往的扩散模型，VideoPoet采用大语言模型，这使得它能够将文本转视频、视频修复和视频风格化等多种功能整合到一起，极大地提高了使用灵活性和效率。其独特的视频延长机制，通过重复预测最后一帧的下一帧内容，创造出视频无限延长的错觉，为用户带来全新的视频生成体验。

12月19日,谷歌发布了视频生成模型VideoPoet。该模型可以生成时长达10秒的视频,同时还可以根据视频内容自动生成配乐音效。VideoPoet通过重复预测视频最后一帧的下一帧内容来延长视频,让用户感觉视频可以无限延长。与其他模型不同的是,VideoPoet使用的是大语言模型而非扩散模型,因此将文本到视频、视频修复、视频风格化等多种功能集成到同一个模型中,使用更加灵活。

VideoPoet的出现标志着视频生成技术的一次显著进步，其强大的功能和便捷的操作方式有望在未来广泛应用于各个领域，为用户提供更加丰富和便捷的视频创作体验。期待未来VideoPoet能带来更多令人惊喜的功能和应用。