Downcodes小编获悉,字节跳动研究院和清华大学的研究人员近期发布了一项研究,揭示了当前AI视频生成模型如OpenAI的Sora在理解物理规律方面的重大缺陷。该研究通过一系列测试,深入探讨了这些模型在不同场景下的表现,并分析了其背后的机制。研究结果对现阶段AI视频生成技术的局限性提出了警示,引发了业界对AI模拟现实能力的广泛思考。
研究团队对AI视频生成模型进行了测试,设定了三种不同的场景,分别是已知模式下的预测、未知模式下的预测,以及熟悉元素的新组合。他们的目标是看看这些模型是否真的学习了物理规律,还是仅仅依赖于训练中的表面特征。
通过测试,研究人员发现这些 AI 模型并没有学习到普遍适用的规则。相反,它们在生成视频时,主要依赖于颜色、大小、速度和形状等表面特征,并且遵循了一种严格的优先顺序:颜色优先,其次是大小、速度和形状。
在熟悉的场景下,这些模型的表现几乎完美,但一旦遇到未知情况,它们就显得无能为力。研究中的一项测试,展示了 AI 模型在处理物体运动时的局限性。例如,当模型训练时使用快速移动的球体来回运动,而在测试时却给它们提供慢速球体,模型竟然在几帧后显示球体突然改变了方向。这一现象在相关视频中也有清晰的体现。
研究人员指出,简单地扩大模型规模或增加训练数据并不能解决问题。尽管更大的模型在熟悉的模式和组合下表现更好,但它们依然无法理解基本的物理规律或处理超出训练范围的场景。研究合著者康炳毅提到:“如果在特定场景下数据覆盖足够好,也许能形成一个过拟合的世界模型。” 但这种模型并不符合真正世界模型的定义,因为真正的世界模型应该能够超越训练数据进行推广。
合著者 Bingyi Kang 在 X 上演示了这一限制,他解释说,当他们用快速移动的球从左到右和向后移动来训练模型,然后用缓慢移动的球进行测试时,模型显示球在仅仅几帧后就突然改变了方向(你可以在1分55秒的视频中看到它)。
这项研究结果对 OpenAI 的 Sora 计划形成了挑战。OpenAI 曾表示,Sora 有望通过不断扩展而发展成为真正的世界模型,甚至声称它已经对物理交互和三维几何有了基本理解。但研究人员指出,单靠简单的规模扩大并不足以让视频生成模型发现基本的物理规律。
Meta 的 AI 负责人 Yann LeCun 对此也表达了怀疑,认为通过生成像素来预测世界的做法是 “浪费时间且注定失败”。尽管如此,很多人仍期待 OpenAI 能在2024年2月中旬如期发布 Sora,展现其视频生成的潜力。
这项研究为AI视频生成领域的发展指明了方向,也提醒我们,对AI能力的评估不能仅仅停留在表面效果,更要深入探究其内在的机制和局限性。未来,如何让AI真正理解和模拟物理世界,仍然是一个巨大的挑战。