Zhipu AI는 비디오 생성 기술의 개발 및 애플리케이션 대중화를 가속화하기 위한 움직임인 비디오 생성 모델 CogVideoX를 오픈 소스화했습니다. 효율적인 성능을 갖춘 CogVideoX-2B 버전은 추론을 수행하는 데 단일 4090 그래픽 카드, 미세 조정을 완료하는 데 단일 A6000 그래픽 카드만 필요하므로 사용 임계값을 크게 낮추고 상업용으로 더 널리 사용할 수 있습니다. 전지. 이 모델은 고급 3D VAE(3D Variational Autoencoder) 기술을 기반으로 하며 고품질 비디오 콘텐츠를 생성할 수 있는 전문 Transformer 기술과 결합되어 비디오 데이터의 텍스트 설명 부족 문제를 효과적으로 해결하며 비디오 데이터를 엄격하게 선별합니다. , 모델 훈련의 데이터 품질을 보장합니다.
CogVideoX 모델은 3D VAE(3D Variational Autoencoder) 기술을 사용하여 3차원 컨볼루션을 통해 비디오의 공간적 및 시간적 차원을 동시에 압축하여 더 높은 압축률과 더 나은 재구성 품질을 달성합니다. 모델 구조에는 인코더, 디코더 및 잠재 공간 정규화가 포함되어 있으며 시간적 인과 컨볼루션을 통해 정보의 인과성을 보장합니다. 또한 전문적인 Transformer 기술을 사용하여 인코딩된 비디오 데이터를 처리하고 이를 텍스트 입력과 결합하여 고품질 비디오 콘텐츠를 생성합니다. CogVideoX 모델을 훈련하기 위해 Zhipu AI는 고품질 비디오 데이터를 선별하고 과도한 편집, 일관되지 않은 동작 및 기타 문제가 있는 비디오를 제거하고 모델 훈련을 위한 데이터 품질을 보장하는 일련의 방법을 개발했습니다. 동시에, 이미지 자막에서 비디오 자막을 생성하는 파이프라인을 통해 비디오 데이터의 텍스트 설명 부족 문제를 해결합니다. 성능 평가 측면에서 CogVideoX는 인간의 행동, 장면, 동적 수준 등을 포함한 여러 지표와 비디오 동적 특성에 중점을 둔 평가 도구에서 우수한 성능을 발휘합니다. Zhipu AI는 새로운 모델 아키텍처, 비디오 정보 압축, 텍스트와 비디오 콘텐츠 융합 등 비디오 생성 분야의 혁신을 계속해서 탐구할 것입니다.
CogVideoX 모델을 훈련하기 위해 Zhipu AI는 고품질 비디오 데이터를 선별하고 과도한 편집, 일관되지 않은 동작 및 기타 문제가 있는 비디오를 제거하고 모델 훈련을 위한 데이터 품질을 보장하는 일련의 방법을 개발했습니다. 동시에, 이미지 자막에서 비디오 자막을 생성하는 파이프라인을 통해 비디오 데이터의 텍스트 설명 부족 문제를 해결합니다.
성능 평가 측면에서 CogVideoX는 인간의 행동, 장면, 동적 수준 등을 포함한 여러 지표와 비디오 동적 특성에 중점을 둔 평가 도구에서 우수한 성능을 발휘합니다. Zhipu AI는 새로운 모델 아키텍처, 비디오 정보 압축, 텍스트와 비디오 콘텐츠 융합 등 비디오 생성 분야의 혁신을 계속해서 탐구할 것입니다.
코드 저장소:
https://github.com/THUDM/CogVideo
모델 다운로드:
https://huggingface.co/THUDM/CogVideoX-2b
기술 보고서:
https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf
CogVideoX의 오픈 소스는 비디오 생성 기술 연구를 위한 귀중한 리소스를 제공하며 이 분야가 새로운 발전의 물결을 가져올 것임을 나타냅니다. 효율적인 성능과 사용 용이성은 더 많은 개발자가 비디오 생성 기술의 혁신에 참여하고 다양한 산업 분야에서 광범위한 적용을 촉진하도록 유도할 것입니다. 우리는 앞으로 이 분야에서 Zhipu AI가 이룩할 더 많은 혁신을 기대합니다!