CogVideoX v1.5, последняя версия видеомодели с открытым исходным кодом Zhipu AI, выходит в Интернет с 10-секундным «новым четким видео» 4K.

Автор：Eve Cole Время обновления：2024-12-01 09:00:01

Редактор Downcodes сообщает: Техническая команда Zhipu сегодня выпустила крупную модель генерации видео CogVideoX v1.5 с открытым исходным кодом, которая является еще одним крупным обновлением серии с августа. Новая версия совершила значительный прорыв в возможностях создания видео, поддерживая более длинные видео, более высокое разрешение и более плавную частоту кадров, а также в сочетании с недавно выпущенной моделью звуковых эффектов CogSound создала платформу «нового четкого видео», предоставляющую пользователям лучшее видео премиум-класса. опыт создания. Это обновление не только улучшает качество видео, но и расширяет возможности модели понимать сложную семантику, предоставляя разработчикам более мощные инструменты.

Понятно, что это обновление значительно улучшило возможности генерации видео, включая поддержку длительности видео 5 и 10 секунд, разрешение 768P и возможности генерации 16 кадров. В то же время модель I2V (изображение-видео) также поддерживает любое соотношение размеров, что еще больше расширяет возможности понимания сложной семантики.

CogVideoX v1.5 содержит две основные модели: CogVideoX v1.5-5B и CogVideoX v1.5-5B-I2V, которые предназначены для предоставления разработчикам более мощных инструментов создания видео.

Что еще более примечательно, так это то, что CogVideoX v1.5 будет одновременно запущен на платформе Qingying и объединен с недавно выпущенной моделью звуковых эффектов CogSound, чтобы стать «Новым Qingying» . Новый Qingying будет предоставлять ряд специальных услуг, включая значительные улучшения качества видео, эстетических характеристик и рациональности движения, а также поддерживать создание 10-секундных, 4K, 60-кадровых видеороликов сверхвысокой четкости.

Официальное введение выглядит следующим образом:

Улучшение качества: значительно улучшены возможности видео Tusheng с точки зрения качества, эстетического исполнения, рациональности движений и семантического понимания сложных подсказок.
Разрешение Ultra-HD: поддерживает создание видеороликов сверхвысокой четкости длительностью 10 с, 4K и 60 кадров.
Переменное соотношение: поддерживает любое соотношение для адаптации к различным сценариям воспроизведения.
Многоканальный вывод: одна и та же команда/изображение может генерировать 4 видео одновременно.
Видео AI со звуковыми эффектами: Xinqingying может генерировать звуковые эффекты, соответствующие изображению.

Что касается обработки данных, команда CogVideoX фокусируется на улучшении качества данных, разработке автоматизированной системы фильтрации для фильтрации плохих видеоданных и запуске модели сквозного понимания видео CogVLM2-caption для создания точных описаний контента. Эта модель может эффективно обрабатывать сложные инструкции и гарантировать, что создаваемое видео соответствует потребностям пользователя.

Чтобы улучшить согласованность контента, CogVideoX использует эффективную технологию трехмерного вариационного автокодирования (3D VAE), которая значительно снижает затраты и сложность обучения. Кроме того, команда также разработала архитектуру Transformer, которая объединяет три измерения текста, времени и пространства. За счет удаления традиционного модуля перекрестного внимания усиливается интерактивный эффект текста и видео, а также улучшается качество создания видео.

В будущем техническая команда Zhipu продолжит расширять объем данных и масштаб модели, а также исследовать более эффективную архитектуру модели для достижения лучшего качества генерации видео. Открытый исходный код CogVideoX v1.5 не только предоставляет разработчикам мощные инструменты, но и привносит новую жизнь в область создания видео.

Код: https://github.com/thudm/cogvideo

Модель: https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT

Выделять:

Новая версия CogVideoX v1.5 имеет открытый исходный код и поддерживает видео длительностью 5/10 секунды, разрешение 768P и возможность генерации 16 кадров.

Запущена новая платформа Qingying в сочетании с моделью звуковых эффектов CogSound для обеспечения генерации видео 4K сверхвысокой четкости.

Обработка данных и инновационные алгоритмы обеспечивают качество и согласованность создаваемых видео.

В целом, открытый исходный код CogVideoX v1.5 и запуск новой платформы Qingying знаменуют собой важный шаг в технологии создания видео с помощью искусственного интеллекта, предоставляя разработчикам и создателям более мощные инструменты и более широкое творческое пространство. Мы с нетерпением ждем возможности увидеть в будущем еще больше интересных приложений на базе CogVideoX.