Компания Zhipu AI открыла исходный код своей модели генерации видео CogVideoX, что направлено на ускорение разработки и популяризации применения технологии генерации видео. Благодаря своей эффективной производительности версия CogVideoX-2B требует только одной видеокарты 4090 для выполнения вывода и одной видеокарты A6000 для выполнения точной настройки, что значительно снижает порог использования и позволяет более широко использовать ее в коммерческих целях. поля. Эта модель основана на передовой технологии 3D-вариационного автокодирования (3D VAE) и в сочетании с экспертной технологией Transformer, которая может генерировать высококачественный видеоконтент, эффективно решать проблему отсутствия текстового описания видеоданных и строго проверять видеоданные. , обеспечивая качество данных обучения модели.
Модель CogVideoX использует технологию 3D-вариационного автокодирования (3D VAE) для одновременного сжатия пространственных и временных размеров видео посредством трехмерной свертки, обеспечивая более высокую степень сжатия и лучшее качество реконструкции. Структура модели включает в себя кодер, декодер и регуляризатор скрытого пространства, который обеспечивает причинность информации посредством временной причинной свертки. Кроме того, экспертная технология Transformer используется для обработки закодированных видеоданных и объединения их с текстовым вводом для создания высококачественного видеоконтента. Для обучения модели CogVideoX компания Zhipu AI разработала набор методов отбора видеоданных высокого качества, устранения видео с перемонтажем, некогерентным движением и других проблем, обеспечения качества данных для обучения модели. При этом проблема отсутствия текстового описания видеоданных решается за счет конвейера, генерирующего видеосубтитры из субтитров изображений. Что касается оценки производительности, CogVideoX хорошо работает по нескольким показателям, включая действия человека, сцены, динамические уровни и т. д., а также инструменты оценки, ориентированные на динамические характеристики видео. Zhipu AI продолжит изучать инновации в области генерации видео, включая новые архитектуры моделей, сжатие видеоинформации и объединение текста и видеоконтента.
Для обучения модели CogVideoX компания Zhipu AI разработала набор методов отбора видеоданных высокого качества, устранения видео с перемонтажом, некогерентным движением и других проблем, обеспечения качества данных для обучения модели. При этом проблема отсутствия текстового описания видеоданных решается за счет конвейера, генерирующего видеосубтитры из субтитров изображений.
Что касается оценки производительности, CogVideoX хорошо работает по нескольким показателям, включая действия человека, сцены, динамические уровни и т. д., а также инструменты оценки, ориентированные на динамические характеристики видео. Zhipu AI продолжит изучать инновации в области генерации видео, включая новые архитектуры моделей, сжатие видеоинформации и объединение текста и видеоконтента.
Репозиторий кода:
https://github.com/THUDM/CogVideo
Загрузка модели:
https://huggingface.co/THUDM/CogVideoX-2b
Технический отчет:
https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf
Открытый исходный код CogVideoX предоставляет ценные ресурсы для исследования технологий генерации видео, а также указывает на то, что эта область откроет новую волну развития. Его эффективная производительность и простота использования побудят больше разработчиков участвовать в инновациях в области технологий генерации видео и способствовать их широкому применению в различных отраслях. Мы с нетерпением ждем новых прорывов, сделанных Zhipu AI в этой области в будущем!