Конфронтация ByteDance и Kuaishou Video AI: существуют различия в понимании, захвате и воображении

Автор：Eve Cole Время обновления：2025-02-09 23:48:02

ByteDance и Kuaishou, два гиганта короткометражных видео, сталкиваются с конфронтацией в области искусственного интеллекта.

8 ноября Dream AI, платформа AI-контента, принадлежащая ByteDance, объявила, что Seaweed, модель генерации видео, разработанная ByteDance, официально открыта для пользователей платформы. По данным ByteDance, модель создания видео в виде погремушек Seaweed, которая на этот раз открыта для использования, является стандартной версией этой модели. Для создания высококачественного AI-видео продолжительностью 5 секунд требуется всего 60 секунд, что на 3–5 минут раньше. все отечественные отраслевые стандарты. Требуется время разработки.

Репортеры Daily Economic News провели реальные испытания первой и последней версий Jimeng и Keling и обнаружили, что после итерации эффекты генерации видео этих двух продуктов были улучшены во многих аспектах, и Keling в разной степени находится в космосе. Детали макета и изображения более точны, а настройка создаваемого эффекта контента более гибкая и удобная. Джимэн имеет преимущества во времени создания и стиле видео.

Визуальный Китай

Крупный техник-модельер сообщил журналистам, что моделям генерации видео сложно добиться разных «стилей» производственного контента: «Помимо технологии, это также в основном зависит от богатства источников данных».

Выполните несколько итераций за короткий период времени

С открытием собственной разработки ByteDance модели генерации видео Seaweed, самая интересная пара в отечественном конкурсе моделей генерации видео - Цзи Мэн и Кэ Линг наконец-то официально соревновались.

Они оба несут в себе «план создания мечты ИИ» по пониманию физического мира и максимальному расширению воображения при создании «реальности». Но сами Цзи Мэн и Кэ Линг также берут на себя ответственность за перспективы развития ByteDance и Kuaishou.

Фактически, и Джимэн, и Келинг завершили несколько итераций менее чем за год. Джимэн начал внутреннее тестирование функции генерации видео в конце марта. Через полгода ByteDance выпустила две модели генерации видео из семейства Doubao, Seaweed и Pixeldance, и предложила провести мелкомасштабное тестирование с помощью Jimeng AI и Volcano Engine. Seaweed открыт для пользователей платформы. Открыт официально.

Пан Хелин, член Экспертного комитета по информационным и коммуникационным экономикам Министерства промышленности и информационных технологий, рассказал репортеру «Daily Economic News», что скорость генерации новой модели, используемой Джимэном, была улучшена, что дает пользователям лучшее Опыт генерации «Jimeng AI в настоящее время находится в области внутренней генерации., по-прежнему относительно лидирует».

Keling стал блокбастером после своего «рождения» в июне. С момента выпуска он претерпел более десяти обновлений, включая выпуск видеофункции Tusheng и запуск модели 1.5. На данный момент Keling имеет более 3,6 миллиона пользователей, создал в общей сложности 37 миллионов видеороликов и в ближайшем будущем официально запустит независимое приложение (прикладное программное обеспечение).

Репортер Daily Economic News выбрал 5 слов-подсказок для видео-сора, официально объявленных OpenAI (женщина на улицах Токио, астронавт, побережье с точки зрения дрона, 3D-анимированный маленький монстр, молодой человек, читающий в облаке) и протестировал их отдельно. первая и последняя версии Menghe Keling вертикально сравнивают видеоэффекты двух моделей видеопоколения.

Сравнив видеоэффекты, созданные в оригинальной версии Джимэна и последней версии, репортер обнаружил, что есть две части обновлений Джимэна, которые более очевидны: первая заключается в том, что при исполнении динамичных «людей и вещей» захват и связность движения были значительно улучшены; во-вторых, дифференцированное представление стилей изображения также достигло большого прогресса.

Если взять в качестве примера «Женщину на улицах Токио», движения персонажей, созданных Юмэ первого поколения, были жесткими, особенно при захвате движений ног и ступней, а общий эффект был размытым и искаженным. Усовершенствованная новая версия Цзи Мэн имеет естественные и плавные движения персонажа, а детальная обработка динамики ног более четкая и больше соответствует логике реального мира.

Существует очевидная разница между сном и духом.

После итерации двух моделей создаваемые эффекты становятся более стабильными, качество изображения лучше, а плавность и обработка деталей более устойчивы к проверке. Тем не менее, у них все еще есть очевидные различия в семантическом понимании, захвате и усилении ключевых слов, а также в балансе между творческим воображением и творческой релевантностью.

Горизонтальное сравнение, сравнение последней версии Jimeng и модели Keling 1,5, чтобы сравнить презентацию 5 слов видео-подсказки Sora. Понимание семантики и улавливание ключевых слов отличают видеопрезентации Джимэна и Келинга.

В видео «Побережье с точки зрения дрона» Цзи Мэн относительно размыл «остров с маяком» в быстром слове, и независимо от того, был ли это Кэ Лин или Сора, в центре внимания этой сцены был «Остров». В описании «Прибрежного шоссе» обстановка сна не соответствует логике реального мира.

В видеоэффекте «Астронавт» Цзи Мэн не описал «приключение» в описании. После регенерации космонавт, держащий кофе и едущий на мотоцикле, также проигнорировал настройку «приключение». Кэ Линг подчеркивает «приключение» через выражения лиц персонажей и движения камеры. Однако и Цзи Мэн, и Кэ Лин относительно проигнорировали сеттинг «трейлера к фильму». Напротив, видео Соры «Космонавт» имеет более кинематографический вид.

В создании видео «3D-анимированный маленький монстр» обстановка маленького монстра Цзи Мэн почти такая же, как у персонажа «Салли» в анимационном фильме «Корпорация монстров». Описание маленького монстра в словах-подсказках, то есть изложение сновидения, также относительно неточно, как и реализация «короткошерстной» постановки. Кроме того, с точки зрения подачи художественного стиля, в подсказках подчеркивается «освещение и фактура», то есть исполнение сновидений слабее, чем у Кэ Лина.

В видео «Женщина на улицах Токио» Цзи Мэн демонстрирует сложные многопредметные взаимодействия хуже, чем Кэ Лин. И «дама», являющаяся объектом снимка, и описание пространства относительно точны, но пешеходы на снимке в целом размыты, а пешеходы крупным планом искажены.

Тем не менее, Jimeng AI официально сообщил, что Pro-версии моделей генерации видео Seaweed и Pixeldance будут доступны для использования в ближайшем будущем. Модель Pro-версии оптимизирует взаимодействие нескольких субъектов и согласованность многокадровых действий, а также позволит преодолеть такие проблемы, как согласованность переключения нескольких кадров.

Что касается функциональности и опыта, после нескольких раундов итераций у Келинга есть корректировки параметров «творческого воображения и творческой актуальности» при создании видео, поэтому можно внести корректировки баланса. Кэ Линг также может установить контент, который вы не хотите отображать, например размытие, коллаж, трансформацию, анимацию и т. д. Операция генерации более гибкая, и эффект можно регулировать.

После тестирования время генерации видео сна стало короче. Время генерации видео из 5 слов-подсказок Соры не превышает полминуты каждое. Однако для создания 10-секундного видео высокого качества с помощью модели 1.5 требуется более 10 минут.

Следует отметить, что вышеупомянутые видеоролики, созданные Джимэном и Келингом, были протестированы и созданы репортерами. Различные версии и детали описания могут привести к различиям в эффектах создания видео.

Битва в области генерации видео с помощью искусственного интеллекта

Для двух гигантов короткометражного видео ByteDance и Kuaishou соперники в области создания видео с помощью искусственного интеллекта — это гораздо больше, чем просто друг друга.

Например, 8 ноября компания Zhipu, один из «Шести маленьких драконов искусственного интеллекта», обновила свой инструмент для создания видео Qingying. Модернизированный Qingying поддерживает генерацию видео из изображений любого размера и имеет возможности многоканальной генерации. Одна и та же команда или изображение могут генерировать 4 видео одновременно. Кроме того, Qingying может генерировать звуковые эффекты, соответствующие изображению. Эта функция звуковых эффектов будет запущена в публичной бета-версии в этом месяце.

Ранее, 31 августа, MiniMax выпустила свою первую модель искусственного интеллекта для генерации видео высокой четкости abab-video-1, о которой часто сообщалось в первый месяц после ее запуска. По данным официального публичного аккаунта MiniMax, за первый месяц после запуска видеомодели на Conch AI количество посещений веб-версии Conch AI выросло более чем на 800%. Пользователи охватывают более 180 стран и регионов мира, а В сентябре продукт занял первое место в списке продуктов искусственного интеллекта (в сети). Он занимает первое место в списке глобальных темпов роста и в списке внутренних темпов роста.

Ван Пэн, младший научный сотрудник Института управления Пекинской академии социальных наук, отметил репортеру «Daily Economic News», что видеопродукты с искусственным интеллектом в стране и за рубежом в настоящее время находятся на стадии быстрого развития, а зарубежные технологии такие гиганты, как Meta и Google, активно внедряют технологии искусственного интеллекта внутри страны, Kuaishou Keling, Jimeng AI и другие продукты также постоянно модернизируются для улучшения пользовательского опыта и возможностей коммерциализации;

Что касается возможностей коммерциализации, в исследовательском отчете, опубликованном Soochow Securities в августе этого года, упоминается, что при нейтральном предположении о уровне проникновения ИИ в 15% потенциальная площадь китайской индустрии создания видео с использованием ИИ составляет 317,8 млрд юаней. затраты на производство фильмов, полнометражных драм, мультфильмов и короткометражных пьес сократятся более чем на 95% по сравнению с традиционной моделью.

Огромный потенциальный размер рынка и «сверхспособность» снижения затрат и повышения эффективности также можно увидеть из данных об использовании Keling.

На «Китайской компьютерной конференции 2024», состоявшейся в октябре, Чжан Ди, вице-президент Kuaishou и руководитель большой группы моделей, сообщил, что с момента выпуска в июне этого года Kuaishou Keling AI имеет более 3,6 миллионов пользователей и создал всего 37 миллионов видео и более 100 миллионов изображений.

Пан Хелин сказал в интервью репортеру Daily Economic News, что Keling поддерживается Kuaishou и имеет поддержку трафика, поэтому процесс коммерциализации идет очень быстро: «Видеопродукты с искусственным интеллектом по-прежнему должны поддерживаться интернет-платформой. Только с помощью. трафик может иметь коммерческий потенциал." ".

Аналогично, ByteDance также поставила коммерциализацию видеомоделей на первое место в своем списке задач. Когда в сентябре этого года были запущены две модели генерации видео, Тан Дай, президент Volcano Engine, публично заявил, что новая модель генерации видео «с момента ее запуска рассматривает возможность коммерциализации». образование, городской культурный туризм и микроскрипты.

«Видео с использованием ИИ продемонстрирует разные потенциалы коммерциализации на стороне B и стороне C». Ван Пэн считает, что для стороны B ИИ-видео может предоставить предприятиям более эффективные и недорогие решения для производства и распространения видео; С другой стороны, AI-видео может удовлетворить потребности пользователей в персонализированном высококачественном видеоконтенте, а также может сочетаться с электронной коммерцией, рекламой и другими отраслями для достижения более точного маркетинга и монетизации.