Редактор Downcodes узнал, что исследователи из Исследовательского института ByteDance и Университета Цинхуа недавно опубликовали исследование, которое выявило серьезные недостатки в современных моделях генерации видео с использованием искусственного интеллекта, таких как Sora от OpenAI, в понимании физических законов. Посредством серии тестов исследование углубилось в работу этих моделей в различных сценариях и проанализировало механизмы, лежащие в их основе. Результаты исследования предупреждают об ограничениях нынешней технологии генерации видео с помощью искусственного интеллекта, вызывая широко распространенное мнение в отрасли о способности искусственного интеллекта моделировать реальность.
Исследовательская группа протестировала модель генерации видео с помощью искусственного интеллекта и разработала три различных сценария: прогнозирование в известных режимах, прогнозирование в неизвестных режимах и новые комбинации знакомых элементов. Их цель состояла в том, чтобы увидеть, действительно ли эти модели изучают законы физики или просто полагаются на особенности поверхности при обучении.
В ходе тестирования исследователи обнаружили, что эти модели ИИ не усваивают универсальные правила. Вместо этого при создании видео они в основном полагаются на поверхностные характеристики, такие как цвет, размер, скорость и форма, и следуют строгому порядку приоритетов: сначала цвет, затем размер, скорость и форма.
Эти модели почти идеально работали в знакомых сценариях, но были неспособны работать в неизвестных ситуациях. Тест в исследовании демонстрирует ограничения моделей ИИ при работе с движением объектов. Например, когда модель обучалась с быстро движущейся сферой, движущейся вперед и назад, но при тестировании с медленно движущейся сферой модель фактически показала, что сфера внезапно изменила направление после нескольких кадров. Это явление также наглядно отражено в соответствующих видеороликах.
Исследователи отмечают, что простое масштабирование модели или добавление дополнительных обучающих данных не решит проблему. Хотя более крупные модели работают лучше со знакомыми шаблонами и комбинациями, они по-прежнему не понимают базовую физику и не справляются со сценариями, выходящими за пределы их диапазона обучения. Соавтор исследования Кан Биньи отметил: «Если покрытие данных достаточно хорошее в конкретном сценарии, может быть сформирована переоснащенная модель мира. Но эта модель не соответствует определению модели реального мира, потому что модель реального мира должна быть». уметь обобщать данные, выходящие за рамки обучения.
Соавтор Бинги Кан продемонстрировал это ограничение на X, объяснив, что, когда они тренировали модель с быстро движущимся мячом, движущимся слева направо и назад, а затем тестировали ее с медленно движущимся мячом, модель показала, что мяч движется. меняет направление уже через несколько кадров (это видно на видео на 1 минуте 55 секунде).
Полученные результаты бросают вызов проекту OpenAI Sora. OpenAI заявила, что Сора, как ожидается, превратится в настоящую модель мира посредством постоянного расширения, и даже утверждает, что у нее уже есть базовое понимание физических взаимодействий и трехмерной геометрии. Но исследователи отмечают, что одного простого масштабирования недостаточно, чтобы видеогенерирующие модели открыли фундаментальные физические законы.
Глава отдела искусственного интеллекта Meta Ян Лекун также выразил скептицизм, заявив, что прогнозирование мира путем генерации пикселей — это «пустая трата времени и обреченная на провал». Несмотря на это, многие люди по-прежнему ожидают, что OpenAI выпустит Sora, как и планировалось, в середине февраля 2024 года, чтобы продемонстрировать свой потенциал для генерации видео.
Это исследование указывает направление развития области генерации видео с помощью искусственного интеллекта, а также напоминает нам, что оценка возможностей искусственного интеллекта не может ограничиваться только поверхностными эффектами, но также должна углубляться в присущие ему механизмы и ограничения. В будущем огромной проблемой останется то, как позволить ИИ по-настоящему понимать и моделировать физический мир.