最近、Bytedance Research InstituteとTsinghua Universityが共同で実施した調査では、現在のAIビデオ生成モデルの身体的理解能力に関する疑問が提起されました。慎重に設計された実験を通じて、研究チームは、OpenaiのSORAなどのこれらのモデルが視覚的に印象的ではあるが、基本的な物理的法則を実際に理解していないが、代わりに速度、速度や表面の特徴の学習と優先順位付けに依存していることを発見しました。形。この研究は、AIシミュレーションの現実について人々の詳細な考え方を引き起こし、物理的理解能力を誇るAIモデルにも挑戦しています。
最近、Bytedance Research InstituteとTsinghua Universityの研究者は、OpenaiのSORAなどの現在のAIビデオ生成モデルが驚くべき視覚効果を生み出すことができるが、基本的な物理学を理解することができると指摘しています。この研究は、現実をシミュレートするAIの能力について広範な議論を引き起こしました。
研究チームはAIビデオ生成モデルをテストし、3つの異なるシナリオを設定しました。つまり、既知のモードでの予測、不明なモードの予測、および馴染みのある要素の新しい組み合わせを設定しました。彼らの目標は、これらのモデルが実際に物理学の法則を学ぶかどうか、またはトレーニング中の表面の特徴のみに依存しているかどうかを確認することです。
テストを通じて、研究者は、これらのAIモデルが普遍的に適用可能なルールを学習していないことを発見しました。代わりに、ビデオを生成するときに色、サイズ、速度、形状などの表面の特徴に主に依存し、厳格な優先順位に従います。色が好まれ、その後サイズ、速度、形状が続きます。
おなじみのシナリオでは、これらのモデルはほぼ完全に機能しますが、不明な状況に遭遇すると、無力に見えます。この研究のテストは、オブジェクトの動きを扱う際のAIモデルの限界を示しています。たとえば、モデルが高速移動球を使用して前後に移動し、テスト中に遅い球体を提供しながら、モデルが数フレームの後に球体が突然方向を変えることを実際に示しています。この現象は、関連するビデオにも明確に反映されています。
研究者は、モデルのサイズを単に拡大したり、トレーニングデータを増やしたりしても問題は解決しないことを指摘しています。馴染みのあるパターンと組み合わせの下では、より大きなモデルはパフォーマンスが向上していますが、トレーニングの範囲を超えた基本的な物理的法則を理解したり、シナリオを処理したりすることはできません。研究の共著者であるKang Bingyiは、「特定のシナリオでデータカバレッジが十分である場合、このモデルは現実の世界モデルの定義を満たしていない可能性があります。」世界モデルは、トレーニングデータを超えて宣伝できるはずです。
共著者のBingyi KangはXのこの制限を実証し、左から右へと動きのあるボールでモデルを訓練したときに、ゆっくりと動くボールでテストしたとき、モデルはほんの数回だけボールを見せたことを説明します。フレーム、方向が突然変更されました(1分55秒のビデオで見ることができます)。
この研究の結果は、OpenaiのSORAプログラムに挑戦しています。 Openaiは、ソラは継続的な拡大を通じて真の世界モデルに発展すると予想されており、物理的相互作用と3次元の幾何学を基本的に理解しているとさえ主張していると述べています。しかし、研究者は、ビデオ生成モデルが基本的な物理的法則を発見できるようにするには、単純なスケール拡張だけでは十分ではないと指摘しています。
メタのAI責任者であるYann Lecunも、これについて疑問を表明し、ピクセルを生成することで世界を予測する慣行は「時間の無駄であり、失敗する運命にある」と信じています。それにもかかわらず、多くの人々は、2024年2月中旬に予定されているSORAのOpenaiのリリースをまだ楽しみにしており、ビデオ生成の可能性を示しています。
キーポイント:
調査では、AIビデオ生成モデルには物理的法則を理解することに大きな欠陥があり、トレーニングデータの表面特性に依存していることがわかりました。
モデルサイズをスケーリングしても、問題は解決しません。これは、不明なシナリオではうまく機能していません。
OpenaiのSORAプログラムは課題に直面しており、スケールアップだけで真の世界モデルを達成することはできません。
要するに、この研究は、AIビデオ生成テクノロジーの開発の方向性を指摘しました。つまり、単純なスケール拡大は、AIの物理法則の理解の基本的な問題を解決することはできません。将来的には、AIモデルは、表面の特徴を模倣する段階にとどまるのではなく、現実世界の正確なシミュレーションと予測を真に達成するために、物理的原則をより深く学習し、理解する必要があります。