С момента рождения соры, которая открыла новую эру видео с использованием искусственного интеллекта, крупные игроки в стране и за рубежом последовательно присоединились к конкурсу видео с использованием искусственного интеллекта. Но когда мы вступаем в новую эру более интерактивного, захватывающего видео, как нам решить проблемы стоимости, качества и производительности?
15 октября Volcano Engine и Intel совместно представили решение для предварительной обработки видео для обучения крупных моделей на конференции Video Cloud Technology Conference. На пресс-конференции корреспондент Daily Economic News узнал, что это техническое решение применено к модели генерации видео в виде кресла-мешка.
На пресс-конференции Ли Ханг, глава Bytedance Research, сообщил, что модель генерации видео Doubao PixelDance использует решение предварительной обработки видео для обучения больших моделей Volcano Engine во время процесса обучения, полностью используя большое количество приливных ресурсов и обеспечивая надежную поддержку. для модельного обучения.
Кроме того, Ван Юэ, руководитель отдела видеоархитектуры Douyin Group, рассказал о последних достижениях чипа видеокодека собственной разработки Byte: проверено внутренней практикой Douyin Group, этот чип экономит более 95% затрат при том же сжатии видео. эффективность.
«Во-первых, сверхкрупный набор обучающих видео привел к резкому увеличению затрат на вычисления и обработку». Ван Юэ отметил, что крупные производители моделей сталкиваются со многими проблемами в процессе предварительной обработки видео. выборочные данные неравномерны, и существует множество каналов обработки. Проект сложен и, наконец, сталкивается с планированием и развертыванием множества гетерогенных вычислительных ресурсов, таких как графический процессор, процессор и ARM».
Самостоятельно разработанная платформа обработки мультимедиа
В рамках инновационного тура Volcano Engine AI, состоявшегося 24 сентября, были представлены вместе две большие модели для создания видео в виде погремушек — PixelDance и Seaweed, что привлекло внимание людей внутри и за пределами отрасли. На самом деле, усилия ByteDance в области моделей генерации видео на этом не заканчиваются.
15 октября Volcano Engine выпустила решение для предварительной обработки видео для обучения больших моделей, предназначенное для решения технических проблем, связанных с стоимостью, качеством и производительностью обучения больших моделей видео.
По имеющимся данным, предварительная обработка обучающих видео является важной предпосылкой для обеспечения эффекта от обучения большой модели. Процесс предварительной обработки может унифицировать формат данных видео, улучшить качество данных, стандартизировать данные, уменьшить объем данных и обработать информацию аннотаций, чтобы модель могла более эффективно изучать функции и знания в видео и улучшать обучение. Эффект и эффективность.
При обучении моделей генерации видео стоимость вычислительной мощности, несомненно, является проблемой номер один.
Инженер-алгоритм отечественной модели генерации видео заявил в интервью репортеру «Daily Economic News», что при наличии высококачественных данных видеомодели будет труднее обучать, чем большие языковые модели, и они потребуют больше вычислительных мощностей «В настоящее время. , Известные видеомодели с открытым исходным кодом не особенно велики, главным образом потому, что многие видеомодели в настоящее время находятся на той стадии, когда не умеют использовать данные, а качественных данных (для обучения) не так уж и много».
Исследования ученого-компьютерщика Маттиаса Плапперта также показывают, что для обучения Sora требуются огромные вычислительные мощности. В процессе обучения обучение на 4200–10 500 процессорах Nvidia H100 занимает около 1 месяца. Когда модель генерируется и достигает стадии вывода, вычислений. стоимость будет быстро увеличиваться за пределами тренировочной сессии.
Чтобы решить проблему снижения затрат, Volcano Engine полагается на процессоры Intel и другие ресурсы, используя свое решение предварительной обработки видео для обучения больших моделей на основе собственной разработки платформы обработки мультимедиа. Ван Юэ сказал, что решение также было оптимизировано с точки зрения алгоритмов и проектирования и может выполнять высококачественную предварительную обработку больших объемов видеоданных, достигать эффективного взаимодействия каналов обработки за короткое время и повышать эффективность обучения модели.
Что касается применения этого решения, Ли Ханг сообщил на пресс-конференции, что модель создания видео в виде погремушки PixelDance использовала это решение в процессе обучения. В то же время решение по требованию, предоставляемое командой Volcano Engine Video Cloud, также обеспечивает комплексный сервис для всего жизненного цикла видео, созданного PixelDance, от редактирования, загрузки, перекодирования, распространения и воспроизведения, гарантируя Коммерческое применение модели.
Кроме того, на этой конференции Volcano Engine также представила решение для одновременной прямой трансляции на нескольких языках, решение для мультимодального понимания и генерации видео, решение для диалогового взаимодействия с искусственным интеллектом в реальном времени, а также решение для реконструкции AIG3D и больших сцен. На этапе производства видео, от интерактивного конца до потребителя, вся связь объединяет возможности искусственного интеллекта.
Куда движется AI-видео?
ИИ меняет способы производства, распространения и получения информации людьми во всех аспектах. Среди них новые видеотехнологии, которые вывели людей из мира плавных данных высокой четкости в мир искусственного интеллекта с более умным и интерактивным опытом.
В июле этого года SenseTime запустила Vimi, первую модель генерации видео с большими управляемыми персонажами для пользователей C-конца; в августе MiniMax выпустила модель генерации видео video-1, в сентябре Keling AI завершила свою девятую итерацию и выпустила «KeLing 1.5»; модель», Alibaba Cloud представила новую модель генерации видео на конференции Yunqi, а Byte также выпустила 2 модели генерации видео. Создание и внедрение видеопродуктов с использованием искусственного интеллекта занимает почти месяцы.
Что касается «взрыва» видеопродуктов с искусственным интеллектом, Ван Пэн, младший научный сотрудник Пекинской академии социальных наук, заявил в интервью репортеру «Daily Economic News», что отечественные видеопродукты с искусственным интеллектом находятся на стадии быстрого развития и непрерывная итерация, в основном из-за высокого рыночного спроса и широкого спектра сценариев применения и разнообразных моделей коммерциализации.
В настоящее время видеопродукты с использованием искусственного интеллекта на рынке в основном реализуются в сферах кино и телевидения, маркетинга электронной коммерции и других областях. Например, в июле этого года Jimeng AI и Bona Pictures совместно запустили первый в стране генеративный непрерывный продукт AIGC. короткометражный научно-фантастический сериал «Саньсиндуй: Будущее просвещение» «Рекорд» в сентябре этого года Куайшоу объединился с девятью известными режиссерами, включая Цзя Чжанкэ и Ли Шаохун, чтобы запустить проект совместного творчества режиссеров «Keling AI».
Пан Хелин, член Экспертного комитета по информационно-коммуникационной экономике Министерства промышленности и информационных технологий, отметил корреспонденту «Daily Economic News», что некоторые видеопродукты с искусственным интеллектом сейчас находятся на стадии внедрения и их сложно внедрять. на рынке из-за технологий или соответствия требованиям. «В настоящее время создается впечатление, что продукты с открытым исходным кодом (продукты AI Video) более популярны, чем продукты с закрытым исходным кодом, потому что стоимость создания видео с использованием ИИ высока, а производителям видео часто не хватает средств, поэтому используют открытый код. исходные алгоритмы искусственного интеллекта, загруженные на терминал, могут лучше создавать и генерировать видео».
По его мнению, видеопродукты с искусственным интеллектом на данном этапе в основном сталкиваются с двумя препятствиями: вычислительная мощность и риски, связанные с соблюдением требований. «Алгоритмы, вычислительная мощность и данные требуют от предприятий вкладывать больше ресурсов и времени; еще одна трудность заключается в комплаенс-рисках. В настоящее время все больше и больше внимания уделяется конфиденциальности. конфиденциальность», — пояснил он.
Кроме того, партнер по исследованиям Analysys Analysis Чэнь Чен также выразил обеспокоенность по поводу возможности краткосрочной монетизации больших моделей генерации видео в интервью репортеру Daily Economic News: «Из-за высоких затрат на обучение моделей и логические выводы для крупного ИИ». Спрос пользователей на инструменты искусственного интеллекта относительно разрознен, а их готовность платить недостаточна. Коммерциализация больших видеомоделей на рынке C-конца по-прежнему столкнется с длительным периодом разработки».
Наступила эра искусственного видео, но вопрос о том, как сократить расходы, повысить эффективность и завоевать больше рынков, также станет важным вопросом, с которым столкнутся крупные интернет-компании и технологические компании.