Downcodes의 편집자는 ByteDance 연구소와 Tsinghua University의 연구원들이 최근 OpenAI의 Sora와 같은 현재 AI 비디오 생성 모델의 물리 법칙 이해에 있어 주요 결함을 드러낸 연구를 발표했다는 사실을 알게 되었습니다. 일련의 테스트를 통해 연구에서는 다양한 시나리오에서 이러한 모델의 성능을 조사하고 그 뒤에 있는 메커니즘을 분석했습니다. 연구 결과는 현재 AI 비디오 생성 기술의 한계에 대해 경고하며 AI의 현실 시뮬레이션 능력에 대한 업계의 광범위한 사고를 촉발시켰습니다.
연구팀은 AI 영상 생성 모델을 테스트해 알려진 모드에서의 예측, 알려지지 않은 모드에서의 예측, 익숙한 요소의 새로운 조합이라는 세 가지 시나리오를 설정했다. 그들의 목표는 이러한 모델이 실제로 물리 법칙을 학습했는지, 아니면 단순히 훈련 시 표면 특징에 의존했는지 확인하는 것이었습니다.
테스트를 통해 연구원들은 이러한 AI 모델이 보편적으로 적용 가능한 규칙을 학습하지 않는다는 것을 발견했습니다. 대신 비디오를 생성할 때 색상, 크기, 속도, 모양과 같은 표면적 특징에 주로 의존하고 색상 우선, 크기, 속도, 모양 순으로 엄격한 우선순위를 따릅니다.
이러한 모델은 익숙한 시나리오에서는 거의 완벽하게 작동했지만 알 수 없는 상황에 직면하면 그렇게 할 수 없었습니다. 연구의 테스트는 객체 모션을 처리할 때 AI 모델의 한계를 보여줍니다. 예를 들어, 앞뒤로 빠르게 움직이는 구로 모델을 훈련했지만 느리게 움직이는 구로 테스트했을 때 모델은 실제로 몇 프레임 후에 구의 방향이 갑자기 바뀌는 것을 보여주었습니다. 이런 현상은 관련 영상에서도 극명하게 드러난다.
연구원들은 단순히 모델을 확장하거나 훈련 데이터를 더 추가하는 것만으로는 문제가 해결되지 않는다고 지적합니다. 더 큰 모델은 익숙한 패턴과 조합으로 더 나은 성능을 발휘하지만 여전히 기본 물리학을 이해하지 못하거나 훈련 범위를 넘어서는 시나리오를 처리하지 못합니다. 연구 공동저자인 강빙이는 "특정 시나리오에서 데이터 범위가 충분하다면 과적합 세계 모델이 형성될 수 있다"고 언급했다. 훈련 데이터 이상으로 일반화할 수 있습니다.
공동 저자인 강빙이는 왼쪽에서 오른쪽, 뒤로 빠르게 움직이는 공으로 모델을 훈련한 다음 느리게 움직이는 공으로 테스트했을 때 모델이 공이 갑자기 움직이는 모습을 보여주면서 X에 대한 이러한 한계를 보여주었습니다. 단 몇 프레임만 지나도 방향이 바뀐다(영상 1분 55초부터 확인 가능).
이번 발견은 OpenAI의 Sora 프로젝트에 도전 과제를 제시합니다. OpenAI는 소라가 지속적인 확장을 통해 진정한 세계 모델로 진화할 것으로 예상되며, 이미 물리적 상호작용과 3차원 기하학에 대한 기본적인 이해를 갖추고 있다고 주장하기도 합니다. 그러나 연구자들은 비디오 생성 모델이 기본적인 물리적 법칙을 발견하는 데 단순한 확장만으로는 충분하지 않다고 지적합니다.
메타의 AI 책임자인 얀 르쿤(Yann LeCun) 역시 픽셀을 생성해 세상을 예측하는 것은 "시간 낭비이고 실패할 수밖에 없다"며 회의적인 입장을 표명했다. 그럼에도 불구하고 많은 사람들은 여전히 OpenAI가 2024년 2월 중순에 예정대로 Sora를 출시하여 비디오 생성에 대한 잠재력을 보여줄 것으로 기대하고 있습니다.
본 연구는 AI 영상세대 분야의 발전 방향을 제시하고, AI 역량에 대한 평가가 단순히 표면적인 효과에만 머물지 않고, AI가 내재하는 메커니즘과 한계까지 깊이 파고들어야 함을 상기시킨다. 미래에는 AI가 물리적 세계를 진정으로 이해하고 시뮬레이션할 수 있도록 하는 방법이 큰 과제로 남아 있습니다.