Downcodes の編集者は、ByteDance Research Institute と清華大学の研究者が最近、OpenAI の Sora などの現在の AI ビデオ生成モデルの物理法則の理解における大きな欠陥を明らかにした研究を発表したことを知りました。この研究では、一連のテストを通じて、さまざまなシナリオにおけるこれらのモデルのパフォーマンスを詳しく調べ、その背後にあるメカニズムを分析しました。この研究結果は、現在の AI ビデオ生成技術の限界を警告し、AI の現実をシミュレートする能力について業界で広く考えられるきっかけとなっています。
研究チームは AI ビデオ生成モデルをテストし、既知のモードでの予測、未知のモードでの予測、よく知られている要素の新しい組み合わせという 3 つの異なるシナリオを設定しました。彼らの目標は、これらのモデルが実際に物理法則を学習したのか、それともトレーニング時に単に表面の特徴に依存しているのかを確認することでした。
研究者らはテストを通じて、これらの AI モデルが普遍的に適用可能なルールを学習していないことを発見しました。代わりに、ビデオを生成するときは主に色、サイズ、速度、形状などの表面の特徴に依存し、最初に色、次にサイズ、速度、形状という厳密な優先順位に従います。
これらのモデルは、よく知られたシナリオではほぼ完璧に機能しましたが、未知の状況に遭遇すると機能しなくなりました。研究のテストでは、物体の動きを扱う際の AI モデルの限界が実証されました。たとえば、モデルが前後に移動する高速で移動する球でトレーニングされた場合、低速で移動する球でテストすると、モデルは実際に数フレーム後に球が突然方向を変えることを示しました。この現象は関連ビデオにもはっきりと反映されています。
研究者らは、単にモデルをスケールアップしたり、トレーニング データを追加したりするだけでは問題は解決しないと指摘しています。大きなモデルは、よく知られたパターンや組み合わせでより優れたパフォーマンスを発揮しますが、基本的な物理学を理解したり、トレーニング範囲を超えたシナリオを処理したりすることはできません。研究の共著者である Kang Bingyi 氏は、「特定のシナリオでデータ カバレッジが十分に優れている場合、過剰適合した世界モデルが形成される可能性があります。しかし、このモデルは現実世界のモデルの定義を満たしていません。なぜなら、現実世界のモデルは次のように定義されているからです。」と述べています。トレーニングデータを超えて一般化できるようになります。
共著者の Bingyi Kang は、X でこの制限を実証し、左から右、後方に移動する高速で移動するボールでモデルをトレーニングし、その後、低速で移動するボールでテストすると、モデルではボールが突然移動することが示されたと説明しました。わずか数フレーム後に方向を変えます (ビデオの 1 分 55 秒で確認できます)。
この発見は、OpenAI の Sora プロジェクトに課題を投げかけています。 OpenAIは、Soraは継続的な拡張を通じて真の世界モデルに進化することが期待されており、すでに物理的相互作用と3次元幾何学の基本的な理解を持っているとさえ主張している。しかし研究者らは、単純なスケールアップだけではビデオ生成モデルが基本的な物理法則を発見するには十分ではないと指摘している。
MetaのAI責任者ヤン・ルカン氏も、ピクセルを生成して世界を予測するのは「時間の無駄であり、失敗する運命にある」と述べ、懐疑的な姿勢を表明した。それにもかかわらず、多くの人々は依然として、OpenAI がビデオ生成の可能性を実証するために予定通り 2024 年 2 月中旬に Sora をリリースすると期待しています。
この研究は、AIビデオ生成分野の発展の方向性を指摘するとともに、AIの能力の評価が表面的な効果にとどまらず、その本質的なメカニズムと限界を掘り下げる必要があることを思い出させてくれます。将来的には、AI が物理世界を真に理解してシミュレーションできるようにする方法は依然として大きな課題です。