Пекин Zhipu Huazhang Technology Co., Ltd. запустила модель Cogvideox v1.5 с открытым исходным кодом, которая сделала значительные прорывы в области генерации видео. После его выхода в начале августа серия Cogvideox быстро стала в центре внимания отрасли благодаря ведущим технологиям и удобным для разработчиков функции. Это обновление принесло много улучшений, включая поддержку более длительного и более высокого определения генерации видео, а также значительное улучшение качества и семантического понимания видео генерации изображений, предоставляя пользователям лучший опыт генерации видео с искусственным интеллектом. Более того стоит отметить, что новая версия объединяет платформу Qinging и модель звукового эффекта CogSound, еще больше улучшая экосистему генерации видео.
Содержание этого открытого исходного кода включает в себя две модели: Cogvideox v1.5-5b и Cogvideox v1.5-5b-i2v. Новая версия также будет запущена на платформе Qinging одновременно и будет объединена с недавно запущенной моделью звукового эффекта CogSound для обеспечения улучшения качества, поддержки разрешения сверхвысокого определения, переменных, чтобы адаптироваться к различным сценариям воспроизведения, многоканал канала вывод и видео с искусственным искусством с звуковыми эффектами.
На техническом уровне Cogvideox v1.5 фильтровали видеоданные, которые не имеют динамического соединения с помощью структуры автоматизированной фильтрации, и использует сквозную модель понимания видео, COGVLM2-Caption для генерации точных описаний видеоконтента, улучшения понимания текста и соответствия инструкциям возможности. Кроме того, новая версия принимает эффективный трехмерный вариационный аутокодер (3D VAE) для решения проблемы когерентности содержимого и независимо развивает архитектуру трансформатора, которая объединяет трехмерный текст, время и пространство, отменяет традиционный модуль привлечения привлечения и экспертная технология нормализации адаптивного уровня оптимизирует использование временной информации в диффузионной модели.
С точки зрения обучения, Cogvideox v1.5 создает эффективную структуру обучения диффузионной модели и достигает быстрого обучения длинных видео последовательностей с помощью различных методов параллельных вычислений и оптимизации времени. Компания заявила, что они подтвердили эффективность масштабирования закона в области генерации видео и планируют расширить объем данных и масштаб моделей в будущем, изучите инновационные архитектуры модели для более эффективной сжатия видео -информации и лучше интегрировать текстовые и видеоконтентные.
Код: https://github.com/thudm/cogvideo
Модель: https://huggingface.co/thudm/cogvideox1.5-5b-sat
Открытый источник Cogvideox v1.5 обеспечивает новый импульс для разработки технологии генерации видео и предоставляет разработчикам более мощные инструменты. Непрерывные технологические инновации и дух с открытым исходным кодом достойны признания, и будущие перспективы применения этой модели достойны признания, и будущие перспективы применения этой модели. С нетерпением жду более инновационных приложений, основанных на Cogvideox v1.5.