Downcodes小編獲悉,字節跳動研究院和清華大學的研究人員近期發布了一項研究,揭示了當前AI視頻生成模型如OpenAI的Sora在理解物理規律方面的重大缺陷。該研究透過一系列測試,深入探討了這些模型在不同場景下的表現,並分析了背後的機制。研究結果對現階段AI視訊生成技術的限制提出了警示,引發了業界對AI模擬現實能力的廣泛思考。
研究團隊對AI視訊生成模型進行了測試,設定了三種不同的場景,分別是已知模式下的預測、未知模式下的預測,以及熟悉元素的新組合。他們的目標是看看這些模型是否真的學習了物理規律,還是僅僅依賴訓練中的表面特徵。
透過測試,研究人員發現這些AI 模型並沒有學習到普遍適用的規則。相反,它們在生成視頻時,主要依賴於顏色、大小、速度和形狀等表面特徵,並遵循了嚴格的優先順序:顏色優先,其次是大小、速度和形狀。
在熟悉的場景下,這些模型的表現幾乎完美,但一旦遇到未知情況,它們就顯得無能為力。研究中的一項測試,展示了AI 模型在處理物體運動時的限制。例如,當模型訓練時使用快速移動的球體來回運動,而在測試時卻給它們提供慢速球體,模型竟然在幾幀後顯示球體突然改變了方向。這現像在相關影片中也有清晰的體現。
研究人員指出,簡單地擴大模型規模或增加訓練資料並不能解決問題。儘管更大的模型在熟悉的模式和組合下表現更好,但它們仍然無法理解基本的物理規律或處理超出訓練範圍的場景。研究合著者康炳毅提到:「如果在特定場景下資料覆蓋足夠好,也許能形成一個過擬合的世界模型。」 但這種模型並不符合真正世界模型的定義,因為真正的世界模型應該能夠超越訓練資料進行推廣。
合著者Bingyi Kang 在X 上展示了這個限制,他解釋說,當他們用快速移動的球從左到右和向後移動來訓練模型,然後用緩慢移動的球進行測試時,模型顯示球在僅僅幾幀後就突然改變了方向(你可以在1分55秒的影片中看到它)。
這項研究結果對OpenAI 的Sora 計畫形成了挑戰。 OpenAI 曾表示,Sora 有望透過不斷擴展而發展成為真正的世界模型,甚至聲稱它已經對物理交互作用和三維幾何有了基本理解。但研究人員指出,單靠簡單的規模擴大並不足以讓影片生成模型發現基本的物理規律。
Meta 的AI 負責人Yann LeCun 對此也表達了懷疑,認為透過產生像素來預測世界的做法是「浪費時間且注定失敗」。儘管如此,許多人仍期待OpenAI 能在2024年2月中旬如期發布Sora,展現其影片生成的潛力。
這項研究為AI視訊生成領域的發展指明了方向,也提醒我們,對AI能力的評估不能只停留在表面效果,更要深入探討其內在的機制和限制。未來,如何讓AI真正理解和模擬物理世界,仍然是一個巨大的挑戰。