В последнее время суматоха вокруг проектов OpenAI и sora заставила внешний мир забеспокоиться по поводу шумной видеоиндустрии искусственного интеллекта.
В конце сентября Мира Мурати, технический директор OpenAI, и Барретт Зофф, вице-президент по исследованиям, сыгравший важную роль в разработке модели o1, моделей GPT-4o и GPT-4v, и руководитель Баррет Зоф. научный сотрудник Боб МакГрю также объявил об их уходе.
4 октября руководитель проекта Sora Тим Брукс официально объявил о своем уходе в социальной платформе X и присоединился к Google DeepMind.
Если принять это вместе с тем фактом, что для официальной версии Соры нет определенного графика, то это будет похоже на знакомую драму, где пузырь звездного проекта лопается и у каждого в игре есть свои планы.
В последнее время конкуренция в области видео AI стала более интенсивной.
Согласно статистике LikeWeb, общее количество посещений веб-сайта Luma AI ведущей мировой компании по производству видео с использованием искусственного интеллекта в сентябре составило всего 11,81 миллиона раз, что на 38,49% меньше, чем в предыдущем месяце. Общее количество посещений хита «Пика» также снизилось в сентябре. Хотя он снова стал популярным благодаря серии новых шаблонных эффектов в новой версии в октябре, постепенно всплыл вопрос о том, как продукт может продолжать привлекать интерес пользователей.
Некоторые из них, изначально настороженно относящиеся к Соре, теперь переоцениваются, например, режиссер Патрик Седерберг заявил в апреле, что ему пришлось заставить модель создать сотни коротких видеороликов, прежде чем он смог найти один доступный короткий клип. Другими словами, Сора очень сложна в использовании.
К счастью, Тим Брукс не распрощался с ИИ-видео. Он, скорее всего, присоединится к инструменту создания ИИ-видео DeepMind Veo. Взлет и падение Sora, возможно, не единственный ориентир для видеоиндустрии искусственного интеллекта. По крайней мере, с точки зрения возможностей такие претенденты, как Meta Movie Gen, начинают утверждать, что убили Sora. Внутренняя экосистема видеопродуктов с искусственным интеллектом также претерпевает новые изменения.
Другими словами, охлаждение видеодорожки ИИ — это также период вызревания перед выпуском следующей партии более качественных продуктов. Недавно, кажется, в поле зрения общественности попал достаточно удивительный продукт.
01
PixVerse V3 действительно разрушает стену измерений
Поскольку видеопродукты с искусственным интеллектом на рынке стали настолько многочисленными, что люди начинают испытывать «визуальную усталость», действительно ли PixVerse V3 достаточно особенный?
Если у вас есть подобные сомнения, появления этого Пикачу достаточно, чтобы развеять большинство из них.
За исключением тех демонстраций на пресс-конференциях, которые невозможно воспроизвести, это, вероятно, первый случай, когда двумерные изображения и реальный мир могут так гармонично взаимодействовать при создании видео с помощью ИИ.
На картинке образ этого Пикачу точно такой же, как мы помним из мультфильма, но он появился на настоящей оживленной улице, а затем прыгнул в объятия младшего брата.
Это приглашение, необходимое для этого видео:
Центральная фронтальная камера: Пикачу стоит на оживленной городской улице рядом с туристом. Турист проходит мимо камеры, а Пикачу бежит сзади. Прыгнул в объятия туриста. Пикачу радостно обнял его за шею и был очень близко. Пешеходы спешили, а туристы несли вперед Пикачу, чьи щеки сверкали от волнения, освещая момент. Очаровательный и непринужденный.
В 1934 году «Голливудская вечеринка» производства MGM, действие Джимми Дюранта, держащего «Микки Мауса» пальцами, стало первой классической сценой в истории мирового кино, в которой 90 лет спустя сочетались мультфильмы и реальные изображения, и это были полные эффектов. изобретательность, но чрезвычайно громоздкая в реализации, наконец-то может быть реализована с помощью ИИ.
Что возмутительно, так это то, что Пикачу был создан ИИ, и реальный мир, в котором живет Пикачу, также был создан ИИ. Судя по эффектам, Pixverse V3 очень плавно переносит анимацию в реальный мир.
Не только Пикачу, вы также можете использовать следующую подсказку, которая, кажется, содержит слишком много элементов, чтобы создать видео, где дядя Марио входит на вокзал:
На видео изображен оживленный вокзал, наполненный разнообразной толпой пассажиров, с нетерпением ожидающих своих поездов. Камера скользит по сцене, запечатлевая оживленную атмосферу. Супер Марио, толстый итальянский персонаж с круглым лицом, надевает свою культовую красную шляпу. синий комбинезон. Камера внимательно следит за Марио, когда он уверенно выходит на платформу, его лицо сияет от волнения. Видео выполнено в реалистичном стиле.
На видео вокзал заполнен пассажирами всех мастей, с нетерпением ожидающими поезда. Камера перемещается по сцене, улавливая оживленную атмосферу. Когда поезд медленно приближается к платформе, камера следует за высоким круглолицым итальянским персонажем Супер Марио. Он в своей знаменитой красной шляпе и синем комбинезоне уверенно выходит на платформу с взволнованной улыбкой на лице. Стиль видео очень реалистичный.
На снимке есть отчетливый главный герой, Марио. У каждой из суетливых толп позади него есть разные детали его движений. Когда Марио идет вперед вдоль камеры, края, где анимированные персонажи пересекаются с реальным окружением, также проработаны очень четко. и чисто, в то же время поезд тоже подъехал к станции.
Если персонажи мультфильмов не могут удовлетворить ваш аппетит, давайте посмотрим, как PixVerse V3 работает в больших сценах.
——Ключевые слова: Дракон засыпает.
Полная подсказка выглядит так:
Камера Steadycam отслеживает снимок дракона, ныряющего в воду, монах в знак признательности поднимает руки.
Отслеживание Steadicam: дракон ныряет в воду, и монах в знак признательности поднимает руки.
Хоть видео и не хватает некоторых деталей, упомянутых в «Подсказке», в целом, будь то последовательность движений камеры, возможность использовать мрачные тона, чтобы тонко передать напряженность картинки, а также использование монстров вдали и заброшенных автомобили на переднем плане Возможности создания видео PixVerse V3 начали приближаться к качеству изображения уровня кино.
Помимо видеороликов Винсента, на этот раз PixVerse V3 также продемонстрировал отличные возможности видео на основе изображений.
Видео Тушэна очень творческое. Вы можете попытаться найти красивый постер американского вестерна, добавить подсказку и позволить ему сделать несколько «возмутительных» вещей - например, найти револьвер низкого качества:
Подсказка такая:
Полная подсказка выглядит так:
Пистолет дает осечку с черным дымом, от чего лицо мужчины пачкается.
Пистолет дал осечку, и пошел черный дым, пачкая лицо мужчины.
Наиболее отчетливое впечатление от PixVerse V3 с точки зрения видеовозможностей Wensheng и Tusheng заключается в том, что он чрезвычайно близок к точкам интереса в повседневной жизни обычных людей. На самом деле, за исключением профессиональных практиков, связанных с созданием видео, немногим людям приходится использовать программное обеспечение для видео с искусственным интеллектом, чтобы создать идеальную работу в кино и на телевидении. Напротив, все больше людей, которые только что использовали способность генерации видео, интересуются, можно ли использовать эту способность в реальном мире или даже в самих себе. Например, вы можете представить своих любимых героев мультфильмов в местах, куда вы ходите каждый день, или даже превратиться в героев мультфильмов, таких как Железный Человек.
Многие трудности, с которыми в настоящее время сталкиваются видеопродукты с искусственным интеллектом, связаны с тем, что они застряли в саморекламе технических возможностей, а пользователи исчезли. На данном этапе, когда видеотехнология Vincent только появилась, большинству обычных людей может понравиться видеопродукт с искусственным интеллектом, который достаточно близок к ним и достаточно дружелюбен.
С этой точки зрения нынешняя версия PixVerse V3 может оказаться продуктом, наиболее точно угадывающим мысли пользователя.
Удивительность PixVerse V3 обусловлена не только итеративными возможностями большой видеомодели AI, лежащей в основе PixVerse V3, но и оптимизацией возможностей быстрого понимания слов. Я полагаю, что внимательные люди заметят это, увидев приведенные выше примеры подсказок.
«Сюжет + Описание объекта + Движение + Окружающая среда» — это формула подсказки, которая максимизирует эффективность создания видео с помощью ИИ. По сравнению с версией 2.5 в PixVerse V3 теперь можно добавить параметр «Описание кадра».
Разумеется, помимо следования этой формуле, Подсказке необходимо как можно подробнее описывать действия персонажа и избегать упрощенных описаний.
В то же время PixVerse V3 также имеет более богатый выбор выходных видео. Что касается форматов выходного видео, PixVerse V3 поддерживает различные соотношения сторон видео, включая 16:9, 9:16, 3:4, 4:3 и 1. :1. Функция стилизации также была обновлена после обновления этой версии. Теперь два режима Vincent Video и Tusheng Video поддерживают четыре варианта стиля: анимация, реальность, пластилин и 3D.
Одним словом, PixVerse V3 на этот раз не только сильнее, он даже хочет передать вам в руки описания продуктов построчно.
На социальной платформе X многие последователи продуктов искусственного интеллекта начали использовать PixVerse V3, например Пьеррик Шевалье, у которого много поклонников. Он даже написал специальный пост, чтобы продемонстрировать видеоролики, созданные им с помощью PixVerse V3. В дополнение к его мощным способностям генерации, что привлекает внимание, так это то, что он показывает много видеороликов в духе Хэллоуина.
02
В этот Хэллоуин пусть PixVerse V3 создаст «эффекты»
Чтобы прорваться в круг достаточно интересного AI-видеопродукта, помимо наличия достаточной технической поддержки, ему нужна еще и хорошая возможность. Говоря об этом, выпуск PixVerse V3 произошел в нужное время.
1 ноября – Хэллоуин, и этот момент в конце октября – ежегодный пик воображения молодежи. В сочетании с темой Хэллоуина PixVerse V3 выпустила серию шаблонов на тему Хэллоуина, позволяющих использовать ИИ для «наложения заклинаний» на все вокруг вас.
На этот раз в PixVerse V3 выпущено в общей сложности 8 шаблонов на тему Хэллоуина, один из которых посвящен «Превращению в живого человека».
Например, в городе из ниоткуда появляется монстр.
В дополнение к таким большим сценам PixVerse V3 может напрямую оживлять элементы фотографии, например, заставлять щенка в «Я жду тебя под дождем» действительно выходить из фотографии:
У щенка даже есть естественное движение: он поднимает голову, прежде чем встать. После выхода из фотографии от исходной фотографии осталась только спокойная лужайка, и весь эффект был просто ошеломляющим.
Этот шаблон также имеет более творческий игровой процесс. Например, можно ли позволить Витрувианскому человеку в произведениях Леонардо да Винчи выйти из окружающего его круга?
Что-то вроде этого:
Устроить такое шоу на Хэллоуин уже достаточно, чтобы поразить публику.
На этот раз второй тип шаблона, подготовленный PixVerse V3 к Хэллоуину, идет по абстрактному пути.
Например, пусть железный ящик встанет и убежит:
Или разбейте Порше на куски и превратите его в груду блоков:
Конечно, на этот раз шаблоны PixVerse V3 также содержат множество других эффектов, похожих на Хэллоуин, которые можно воспроизвести, например, надевание шляпы волшебника на фотографию персонажа и последующее ее перемещение, как показано ниже:
Эти шаблоны Хэллоуина включены в новую функцию «Эффект» PixVerse V3. Его очень просто использовать. После загрузки изображения выберите нужный эффект и нажмите, чтобы создать его. Не нужно беспокоиться о вводе подсказок в середине. Это очень удобно для людей, которые думают только о Хэллоуине.
На этот раз PixVerse V3 демонстрирует более сильные возможности мультимодальной генерации. Основываясь на собственном видео Wensheng и видео Tusheng, PixVerse V3 теперь может заставить сгенерированное видео нести звуковой контент, который хочет пользователь, и если исходное видео недостаточно длинное, теперь PixVerse V3. имеет возможность создавать дальнейшие продолжения оригинального видео.
Эти возможности мультимодальной генерации также стали двумя новыми функциями, дебютировавшими в PixVerse V3 вместе с Effect. Первая функция — Lipsync, функция синхронизации губ, которая может генерировать синхронизированные голоса многоязычных персонажей для видео.
Функция Lipsync позволяет пользователям вводить собственный копирайтинг или загружать аудиофайлы на основе сгенерированного видео, а затем PixVerse автоматически адаптирует форму рта персонажей в видео на основе копирайтинга или содержимого аудиофайла. В настоящее время Lipsync может поддерживать видео длительностью 30 секунд, а языки, на которых возможна синхронизация губ, включают английский, китайский, французский и японский.
Другая функция — продлить видео, или его можно понимать как продолжение истории.
В ответ на проблему, заключающуюся в том, что длина сгенерированного в данный момент видео слишком коротка, в PixVerse V3 пользователи могут выбрать сгенерированное видео, нажать кнопку «Продлить», ввести слова-подсказки, связанные с дальнейшим развитием видео, нажать «Создать». ", а исходное видео будет: Предложенное направление обеспечивает развитие сюжета при сохранении высокой степени связности между персонажами и действиями.
Благодаря добавлению возможностей создания мультимодального видео PixVerse V3 теперь может создавать видеоролики с искусственным интеллектом с более крупным повествованием и лучшими аудиовизуальными эффектами, а границы создания видео с использованием искусственного интеллекта еще больше расширились.
Создайте видеопродукт с искусственным интеллектом, в который действительно можно играть.
«Для ChatGPT наступит момент, когда его смогут использовать обычные пользователи», — заявил в интервью в апреле этого года Ван Чанху, основатель и генеральный директор Aishi Technology.
За последние два года каждый новый проблеск технологии крупномасштабных моделей трансформировался в новые грандиозные повествования о методах производства, как будто человеческая жизнь будет полностью разрушена за короткий период времени. Но пока этого не произошло.
В то же время ажиотаж, вызванный Сорой, и чрезмерно амбициозное техническое воображение постепенно привели к тому, что вся сфера видеопродуктов с искусственным интеллектом потеряла фокус и потеряла связь с общественной жизнью. Поэтому, с одной стороны, AI-видеопродуктам, таким как Runway, которые позиционируются как профессиональные инструменты, сложно вырваться из круга из-за высокого порога использования, с другой стороны, продуктам, которые позиционируются больше в сторону общего. Публика столкнулась с дилеммой «ожога после прочтения» после того, как ее попробовали все. После того, как новизна исчерпала себя, продукту трудно сохраниться. У продукта нет четких и конкретных идей по развитию, поэтому у него нет другого выбора, кроме как скатиться к нему. простая логика «фильтрации» и «спецэффектов».
Другими словами, огромная открытость возможностей генерации ИИ делает почти все текущие продукты в области видео ИИ похожими на некий полуфабрикат. Случайность и неконтролируемость генерируемого контента упакованы в новый опыт, что также означает. что его трудно использовать в полевых условиях, используемых в конкретном и постоянном сценарии.
Точно так же, как когда внешний мир был поражен возможностями Соры по созданию человечков-воздушных шаров, Патрик Седерберг был обеспокоен отсутствием последовательности в генерации контента Соры. Он жаловался, что цвет воздушных шаров будет меняться с каждым поколением, и эти недостатки означают многое. постпродакшн все еще неизбежен. Подобных проблем много, поэтому, хотя Голливуд год назад начал бастовать из-за потенциального подрыва киноиндустрии крупными моделями, год спустя сора все еще не может по-настоящему войти в рабочий процесс кино и телевидения.
В настоящее время видеопродукты с использованием искусственного интеллекта более или менее оказались в похожей ситуации — хотя возможности создания видео с помощью искусственного интеллекта уже давно волнуют всех, продукты для создания видео с использованием искусственного интеллекта по-прежнему представляют собой красивую «выставку-продажу».
Перед лицом нового технологического потока продукту трудно оставаться «конкретным». Однако то, что Aishi Technology перенесла из исходной веб-версии PixVerse в текущую версию PixVerse V3, представляет собой редкий ясный и упорядоченный путь итерации.
В январе этого года Aishi Technology официально выпустила веб-версию PixVerse, видеопродукта PixVerse. Но в то время, включая PixVerse, проблема, с которой сталкивались почти все видеопродукты Wensheng, заключалась в том, что генерируемые изображения были неуправляемыми, а это означало, что пользователи не могли непрерывно генерировать видеоконтент вокруг единого персонажа. Три месяца спустя веб-версия PixVerse была оснащена функцией C2V (Character to Video), разработанной на основе самостоятельно разработанной модели большого видео, которая изначально решала проблему согласованности при создании видео с помощью ИИ путем точного извлечения функций персонажа для блокировки персонажа.
Исправив «роль» в видео, PixVerse сосредоточила последующие итерации на «управляемости» поведения в генерируемом контенте. В июне этого года компания Aishi Technology выпустила движущуюся кисть Magic Brush. Пользователи могут точно контролировать движение и направление каждого элемента, просто нанося его на видеоэкран. PixVerse V2 был запущен в конце июля. Помимо демонстрации достаточного контроля над генерируемым контентом, сложность подсказок также была значительно снижена. В то же время средств тонкой настройки генерируемых эффектов стало больше.
Это еще одна итерация с очень четкими намерениями: «Нужно опробовать конкретную форму продукта, но в конечном итоге мы все еще надеемся обслуживать большинство обычных пользователей», как сказал Ван Чанху в предыдущем интервью.
Когда возможности создания видео не могут напрямую удовлетворить потребности обычных пользователей, обслуживание профессиональных создателей и разработка инструментов следующего поколения, основанных на новых парадигмах создания контента, становится более приоритетной задачей. «Когда производственные факторы будут включены в технологию — например, ИИ заменяет актеров, сцены и камеры во время съемок — тогда возможности ИИ по созданию видео смогут начать использоваться публикой, и круг пользователей будет постепенно расширяться, создавая огромные возможности. "
На этот раз PixVerse 3V стала пытаться внедрить больше геймплея, связанного с жизнью обычных людей, и попыталась использовать Prompt для установки объектива. Последнее можно рассматривать как попытку частично заменить камеру. С этой точки зрения Aishi Technology идет по очень решительному пути совершенствования направления своей продукции.
В технологической волне создания видео с использованием искусственного интеллекта, где дивергенция — это красота, выбор Aishi Technology — пойти против общей тенденции, держаться подальше от грандиозных повествований и предоставить наиболее конкретный план того, как можно воспроизводить видеопродукты с искусственным интеллектом.
Только когда люди смогут держать его в руках и играть с ним как можно больше, видеоприложение AI сможет перейти от «шоу продавца» под руководством Соры к яркому «шоу покупателя».
Потрясающий дебют PixVerse V3 может стать началом еще одного положительного изменения в «охлаждении» видео с искусственным интеллектом.