Согласно официальному официальному отчету о команде Doubao Big Model, в рамках совместного исследования Пекинского университета Цзиотонга и Университета науки и технологий Китая, экспериментальная модель генерации видео «VideoWorld», предложенная Doubao Big Model Team, была официально открыта недавно.
Самая большая модель этой модели заключается в том, что она больше не опирается на традиционные языковые модели, но может распознавать и понимать мир, основанный только на визуальной информации. Это прорывное исследование было вдохновлено концепцией профессора Ли Фейфей о том, что «маленькие дети могут понять реальный мир, не полагаясь на язык», упомянутое в его речи TED.
«VideoWorld» реализует сложные возможности вывода, планирования и принятия решений, анализируя и обрабатывая большие объемы видеодантеров. Эксперименты исследовательской группы показали, что модель достигла значительных результатов только с параметрами 300 м. В отличие от существующих моделей, которые полагаются на языковые или тегические данные, VideoWorld может самостоятельно изучать знания, особенно в сложных задачах, таких как связи с оригами и бабочками, которые могут обеспечить более интуитивно понятный метод обучения.
Чтобы проверить эффективность этой модели, исследовательская группа создала две экспериментальные среды: Go Battle и Robot Simulation Control. Как высокотегическая игра, GO может эффективно оценить способность к обучению и рассуждениям модели, в то время как задачи роботов изучают производительность модели в контроле и планировании. На этапе обучения модель постепенно устанавливает способность предсказывать будущие картинки, просмотрев большое количество видео демонстрации.
Чтобы повысить эффективность обучения видео, команда представила потенциальную динамическую модель (LDM), предназначенную для сжатия визуальных изменений между видео кадров для извлечения критической информации. Этот метод не только снижает избыточную информацию, но и повышает эффективность обучения сложных знаний модели. Благодаря этому инновациям Videoworld демонстрирует выдающиеся способности в Go и роботизированных задачах и даже достигает уровня профессионального пятиэтажного хода.
Бумажная ссылка: https://arxiv.org/abs/2501.09781
Ссылка на код: https://github.com/bytedance/videoworld
Домашняя страница проекта: https://maverickren.github.io/videoworld.github.io
Ключевые моменты:
Модель «VideoWorld» может реализовать изучение знаний на основе только визуальной информации и не полагается на языковые модели.
Модель демонстрирует отличные возможности рассуждений и планирования в задачах моделирования GO и роботов.
Код и модель проекта были открыты, и люди из всех слоев общества могут принять участие в опыте и обмене.