최근 Bytedance Research Institute와 Tsinghua University가 공동으로 수행 한 연구는 현재 AI 비디오 생성 모델의 물리적 이해 능력에 대한 의문을 제기했습니다. 신중하게 설계된 실험을 통해 연구팀은 Openai의 SORA와 같은 이러한 모델은 시각적으로 인상적이지만 기본 물리 법칙을 실제로 이해하지 못했지만 속도 및 속도 및 학습 및 학습 및 우선 순위를 정하는 것으로 나타났습니다. 모양. 이 연구는 AI 시뮬레이션의 현실에 대한 사람들의 심층적 인 사고를 촉발 시켰으며, 신체적 이해 능력을 자랑하는 AI 모델에 도전했습니다.
최근 Bytedance Research Institute와 Tsinghua University의 연구원들은 공동으로 새로운 연구를 발표하여 OpenAi의 SORA와 같은 현재 AI 비디오 생성 모델이 놀라운 시각 효과를 만들 수 있지만 기본 물리학을 이해할 수 있습니다 . 이 연구는 AI의 현실을 시뮬레이션하는 능력에 대한 광범위한 논의를 일으켰습니다.
연구팀은 AI 비디오 생성 모델을 테스트하고 알려진 모드의 예측, 알려지지 않은 모드의 예측 및 친숙한 요소의 새로운 조합을 설정했습니다. 그들의 목표는 이러한 모델이 실제로 물리 법칙을 배우는 지 또는 훈련의 표면 특징에만 의존하는지 확인하는 것입니다.
연구자들은 테스트를 통해 이러한 AI 모델이 보편적으로 적용 가능한 규칙을 배우지 않았다는 것을 발견했습니다. 대신, 그들은 비디오를 생성 할 때 색상, 크기, 속도 및 모양과 같은 표면 특징에 주로 의존하며 엄격한 우선 순위를 따릅니다. 색상이 선호되고 크기, 속도 및 모양이 선호됩니다.
친숙한 시나리오에서 이러한 모델은 거의 완벽하게 수행되지만 알 수없는 상황에 직면하면 힘이없는 것처럼 보입니다. 연구의 테스트는 객체 움직임을 다룰 때 AI 모델의 한계를 보여줍니다. 예를 들어, 모델이 빠르게 움직이는 구체를 사용하여 앞뒤로 움직일 때, 테스트 중에 느린 구체를 제공 할 때, 모델은 실제로 몇 프레임 후에 구체가 갑자기 방향이 바뀌는 것을 보여줍니다. 이 현상은 관련 비디오에도 명확하게 반영됩니다.
연구원들은 단순히 모델의 크기를 확장하거나 훈련 데이터를 늘리는 것이 문제를 해결하지 못한다고 지적합니다. 더 큰 모델은 친숙한 패턴과 조합에서 더 잘 수행되지만 여전히 기본적인 물리 법칙을 이해하거나 훈련 범위를 넘어서 시나리오를 처리하지 못합니다. 연구 공동 저자 인 Kang Bingyi는 다음과 같이 언급했습니다. "특정 시나리오에서 데이터 범위가 충분히 좋으면이 모델은 실제 모델의 정의를 충족시키지 못할 수 있습니다." 세계 모델은 교육 데이터를 넘어 홍보 할 수 있어야합니다.
공동 저자 Bingyi Kang은 X에 대한 이러한 제한을 보여 주었고, 왼쪽에서 오른쪽으로 빠르게 움직이는 공을 사용하여 모델을 훈련시킨 다음 느리게 움직이는 공으로 테스트 한 다음 모델은 몇 번만 공을 보여 주었다고 설명했습니다. 프레임, 방향이 갑자기 바뀌 었습니다 (1 분 55 초 비디오에서 볼 수 있습니다).
이 연구의 결과는 OpenAI의 SORA 프로그램에 도전합니다. Openai는 SORA가 지속적인 확장을 통해 진정한 세계 모델로 발전 할 것으로 예상되며 심지어 물리적 상호 작용과 3 차원 기하학에 대한 기본적인 이해가 있다고 주장했다. 그러나 연구원들은 단순한 규모 확장만으로는 비디오 생성 모델이 기본적인 물리 법칙을 발견 할 수 있도록 충분하지 않다고 지적합니다.
Meta의 AI 책임자 인 Yann Lecun은 또한 픽셀을 생성함으로써 세계를 예측하는 관행이 "시간 낭비이며 실패 할 운명"이라고 믿는 것에 대해 의문을 표명했습니다. 그럼에도 불구하고, 많은 사람들이 여전히 2024 년 2 월 중순에 예정된대로 Openai의 Sora 출시를 기대하고 있으며, 비디오 생성 잠재력을 보여줍니다.
핵심 사항 :
연구에 따르면 AI 비디오 생성 모델은 물리 법칙을 이해하는 데 큰 결함이 있으며 교육 데이터의 표면 특성에 의존합니다.
모델 크기를 확장한다고해서 알 수없는 시나리오에서는 잘 작동하지 않는 문제가 해결되지 않습니다.
OpenAi의 SORA 프로그램은 도전에 직면하며 스케일 업만으로는 진정한 세계 모델을 달성 할 수 없습니다.
요컨대,이 연구는 AI 비디오 생성 기술 개발의 방향을 지적했다. 앞으로 AI 모델은 표면 특징을 모방하는 단계에 머무르기보다는 실제 세계의 정확한 시뮬레이션과 예측을 진정으로 달성하기 위해 물리적 원리를 더 깊이 배우고 이해해야합니다.