近日,一項由字節跳動研究院和清華大學聯合進行的研究對當前AI視頻生成模型的物理理解能力提出了質疑。研究團隊通過精心設計的實驗發現,這些模型,例如OpenAI的Sora,雖然在視覺效果上令人印象深刻,但卻並未真正理解基本的物理規律,而是依賴於對訓練數據中顏色、大小、速度和形狀等表面特徵的學習和優先級排序。這項研究引發了人們對AI模擬現實能力的深入思考,也對標榜自身俱有物理理解能力的AI模型提出了挑戰。
近日,字節跳動研究院和清華大學的研究人員聯合發布了一項新研究,指出目前的AI 視頻生成模型,比如OpenAI 的Sora,雖然能創造出令人驚嘆的視覺效果,但在理解基本物理規律方面卻存在重大缺陷。這項研究引發了人們對AI 在模擬現實時能力的廣泛討論。
研究團隊對AI 視頻生成模型進行了測試,設定了三種不同的場景,分別是已知模式下的預測、未知模式下的預測,以及熟悉元素的新組合。他們的目標是看看這些模型是否真的學習了物理規律,還是僅僅依賴於訓練中的表面特徵。
通過測試,研究人員發現這些AI 模型並沒有學習到普遍適用的規則。相反,它們在生成視頻時,主要依賴於顏色、大小、速度和形狀等表面特徵,並且遵循了一種嚴格的優先順序:顏色優先,其次是大小、速度和形狀。
在熟悉的場景下,這些模型的表現幾乎完美,但一旦遇到未知情況,它們就顯得無能為力。研究中的一項測試,展示了AI 模型在處理物體運動時的局限性。例如,當模型訓練時使用快速移動的球體來回運動,而在測試時卻給它們提供慢速球體,模型竟然在幾幀後顯示球體突然改變了方向。這一現像在相關視頻中也有清晰的體現。
研究人員指出,簡單地擴大模型規模或增加訓練數據並不能解決問題。儘管更大的模型在熟悉的模式和組合下表現更好,但它們依然無法理解基本的物理規律或處理超出訓練範圍的場景。研究合著者康炳毅提到:“如果在特定場景下數據覆蓋足夠好,也許能形成一個過擬合的世界模型。” 但這種模型並不符合真正世界模型的定義,因為真正的世界模型應該能夠超越訓練數據進行推廣。
合著者Bingyi Kang 在X 上演示了這一限制,他解釋說,當他們用快速移動的球從左到右和向後移動來訓練模型,然後用緩慢移動的球進行測試時,模型顯示球在僅僅幾幀後就突然改變了方向(你可以在1分55秒的視頻中看到它)。
這項研究結果對OpenAI 的Sora 計劃形成了挑戰。 OpenAI 曾表示,Sora 有望通過不斷擴展而發展成為真正的世界模型,甚至聲稱它已經對物理交互和三維幾何有了基本理解。但研究人員指出,單靠簡單的規模擴大並不足以讓視頻生成模型發現基本的物理規律。
Meta 的AI 負責人Yann LeCun 對此也表達了懷疑,認為通過生成像素來預測世界的做法是“浪費時間且注定失敗”。儘管如此,很多人仍期待OpenAI 能在2024年2月中旬如期發布Sora,展現其視頻生成的潛力。
劃重點:
研究發現AI 視頻生成模型在理解物理規律方面存在重大缺陷,依賴於訓練數據的表面特徵。
擴大模型規模並不能解決問題,這些模型在未知場景中表現不佳。
OpenAI 的Sora 計劃面臨挑戰,單靠規模擴大無法實現真正的世界模型。
總而言之,這項研究為AI視頻生成技術的發展指明了方向,即單純的規模擴張並不能解決AI對物理規律理解的根本性問題。未來,AI模型需要更深入地學習和理解物理原理,才能真正實現對現實世界的準確模擬和預測,而非僅僅停留在對錶面特徵的模仿階段。