Сообщество ModelScope выложило в открытый доступ обновленную версию своей отечественной модели генерации видео Sora с открытым исходным кодом CogVideoX — CogVideoX-5B, которая представляет собой модель генерации текста в видео, основанную на крупномасштабной модели DiT. По сравнению с предыдущим CogVideoX-2B, в новой модели значительно улучшено качество видео и визуальные эффекты. CogVideoX-5B использует 3D-каузальный вариационный автокодировщик (3D-каузальный VAE) и экспертную технологию Transformer, а также использует 3D-RoPE в качестве кодирования положения и 3D-механизма полного внимания для пространственно-временного моделирования суставов. Он также использует технологию прогрессивного обучения. , более высокое качество и больше динамичных видеороликов.
По сравнению с предыдущим CogVideoX-2B, в новой модели значительно улучшено качество и визуальные эффекты генерации видео.
CogVideoX-5B основан на крупномасштабной модели DiT (диффузионный преобразователь), специально разработанной для задач преобразования текста в видео. Модель использует 3D-каузальный вариационный автокодировщик (3D-каузальный VAE) и экспертную технологию Transformer, объединяет встраивание текста и видео, использует 3D-RoPE в качестве кодирования положения и использует 3D-механизм полного внимания для пространственно-временного моделирования суставов.
Кроме того, модель использует прогрессивную технологию обучения и способна генерировать связные и продолжительные видеоролики высокого качества со значительными особенностями движения.
Ссылка на модель:
https://modelscope.cn/models/ZhipuAI/CogVideoX-5b
Открытый исходный код CogVideoX-5B привнес новые технологические прорывы и возможности развития в область создания домашнего видео с помощью искусственного интеллекта, а также предоставил мощные инструменты и ресурсы для исследователей и разработчиков. Считается, что в будущем появятся более инновационные приложения на базе CogVideoX-5B, способствуя постоянному прогрессу технологии генерации видео с помощью искусственного интеллекта. Легкий доступ к модели также снижает порог исследований и применения, способствуя более широкому распространению и применению технологий.