Редактор Downcodes узнал, что компания Zhipu AI недавно открыла исходный код своей новой модели поколения видео CogVideoX-5B. В этой модели удалось добиться значительного улучшения качества генерации видео, визуальных эффектов и производительности вывода, что является значительным улучшением по сравнению с продуктом предыдущего поколения CogVideoX-2B. Даже ранние карты GTX 1080Ti могут работать с моделями предыдущего поколения, в то время как основные карты, такие как RTX 3060, могут легко работать с CogVideoX-5B. Это означает дальнейшее снижение порога технологии создания высококачественного видео, предоставляя большему числу разработчиков и пользователей удобные и эффективные решения для создания видео.
Недавно компания Zhipu AI открыла исходный код новой модели поколения видео CogVideoX-5B. Она не только превосходит продукт предыдущего поколения CogVideoX-2B с точки зрения качества генерации видео и визуальных эффектов, но и значительно улучшила производительность рассуждения, что делает его Early. Видеокарты GTX1080Ti могут работать с моделью предыдущего поколения, а видеокарты настольного десертного уровня, такие как RTX3060, могут легко работать с этой новой моделью.
Подробное сравнение параметров CogVideoX-5B и CogVideoX-2B:
Эта крупномасштабная модель DiT (диффузионного преобразователя) предназначена для выполнения задач по преобразованию текста в видео. Технология, лежащая в его основе, включает 3D-каузальный вариационный автокодировщик (3D-каузальный VAE), который обеспечивает эффективную реконструкцию видео путем сжатия видеоданных в скрытое пространство и декодирования их во временном измерении.
Кроме того, использование Expert Transformer сочетает встраивание текста и встраивание видео, использует 3D-RoPE в качестве кодирования положения, нормализует данные двух модальностей через экспертный адаптивный слой и использует полное трехмерное внимание. Силовой механизм совместно моделируется в пространстве. и время.
Код: https://top.aibase.com/tool/cogvideox
Загрузка модели: https://huggingface.co/THUDM/CogVideoX-5b
Ссылка на документ: https://arxiv.org/pdf/2408.06072.
Открытый исходный код CogVideoX-5B принес новые прорывы в области генерации видео, снизил технический порог и обеспечил прочную основу для будущих исследований и приложений. Редактор Downcodes считает, что эта технология будет способствовать дальнейшему развитию технологий генерации видео и принесет инновационные приложения в большее количество областей.