Zhipu AI 오픈 소스 비디오 모델의 최신 버전인 CogVideoX v1.5가 10초 4K "새로운 클리어 비디오"로 온라인에 출시되었습니다.

저자：Eve Cole 업데이트 시간：2024-12-01 09:00:01

Downcodes의 편집자는 다음과 같이 보고합니다. Zhipu 기술 팀은 오늘 8월 이후 시리즈의 또 다른 주요 업그레이드인 주요 오픈 소스 CogVideoX v1.5 비디오 생성 모델을 출시했습니다. 새 버전은 더 긴 비디오, 더 높은 해상도, 더 부드러운 프레임 속도를 지원하고 새로 출시된 CogSound 사운드 효과 모델과 결합하여 "새로운 선명한 비디오" 플랫폼을 만들어 사용자에게 더 나은 프리미엄 비디오를 제공하는 등 비디오 생성 기능에서 획기적인 발전을 이루었습니다. 창작 경험. 이 업데이트는 비디오 품질을 향상시킬 뿐만 아니라 복잡한 의미를 이해하는 모델의 능력을 향상시켜 개발자에게 더욱 강력한 도구를 제공합니다.

이번 업데이트를 통해 5초 및 10초 비디오 길이 지원, 768P 해상도 및 16프레임 생성 기능을 포함하여 비디오 생성 기능이 크게 향상된 것으로 이해됩니다. 동시에 I2V(이미지 투 비디오) 모델은 모든 크기 비율을 지원하므로 복잡한 의미를 이해하는 능력이 더욱 향상됩니다.

CogVideoX v1.5에는 개발자에게 보다 강력한 비디오 생성 도구를 제공하도록 설계된 CogVideoX v1.5-5B 및 CogVideoX v1.5-5B-I2V의 두 가지 주요 모델이 포함되어 있습니다.

더욱 주목할만한 점은 CogVideoX v1.5가 Qingying 플랫폼에서 동시에 출시되고 새로 출시된 CogSound 음향 효과 모델과 결합되어 "New Qingying"이 될 것이라는 점입니다. New Qingying은 비디오 품질, 미적 성능 및 모션 합리성의 대폭 개선을 포함하여 다양한 특별 서비스를 제공하고 10초, 4K, 60프레임 초고화질 비디오 생성을 지원합니다.

공식적인 소개는 다음과 같습니다.

품질 개선: 품질, 미적 성능, 움직임의 합리성, 복잡한 프롬프트 단어에 대한 의미론적 이해 측면에서 Tusheng 비디오의 능력이 크게 향상되었습니다.
Ultra-HD 해상도: 10초, 4K 및 60프레임 초고화질 비디오 생성을 지원합니다.
가변 비율: 다양한 재생 시나리오에 맞게 모든 비율을 지원합니다.
다중 채널 출력: 동일한 명령/그림으로 한 번에 4개의 비디오를 생성할 수 있습니다.
음향 효과가 포함된 AI 비디오: Xinqingying은 사진과 일치하는 음향 효과를 생성할 수 있습니다.

데이터 처리 측면에서 CogVideoX 팀은 데이터 품질 개선, 잘못된 비디오 데이터를 필터링하기 위한 자동화된 필터링 프레임워크 개발, 정확한 콘텐츠 설명 생성을 위한 엔드투엔드 비디오 이해 모델 CogVLM2-caption 출시에 중점을 둡니다. 이 모델은 복잡한 지침을 효과적으로 처리하고 생성된 비디오가 사용자의 요구 사항과 일치하는지 확인할 수 있습니다.

콘텐츠 일관성을 향상시키기 위해 CogVideoX는 효율적인 3차원 변형 자동 인코더(3D VAE) 기술을 사용하여 교육 비용과 난이도를 크게 줄입니다. 또한 팀은 텍스트, 시간, 공간의 3차원을 통합하는 Transformer 아키텍처도 개발했습니다. 기존의 교차 어텐션 모듈을 제거하여 텍스트와 비디오의 상호 작용 효과가 향상되고 비디오 생성 품질이 향상됩니다.

앞으로 Zhipu 기술 팀은 데이터 양과 모델 규모를 지속적으로 확장하고 더 효율적인 모델 아키텍처를 탐색하여 더 나은 비디오 생성 경험을 달성할 것입니다. CogVideoX v1.5의 오픈 소스는 개발자에게 강력한 도구를 제공할 뿐만 아니라 비디오 제작 분야에 새로운 활력을 불어넣습니다.

코드: https://github.com/thudm/cogvideo

모델: https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT

가장 밝은 부분:

CogVideoX v1.5의 새 버전은 오픈 소스이며 5/10초 비디오, 768P 해상도 및 16프레임 생성 기능을 지원합니다.

초고화질 4K 비디오 생성을 제공하기 위해 CogSound 음향 효과 모델과 결합된 새로운 Qingying 플랫폼이 출시되었습니다.

데이터 처리 및 알고리즘 혁신은 생성된 비디오의 품질과 일관성을 보장합니다.

전체적으로 CogVideoX v1.5의 오픈 소스와 새로운 Qingying 플랫폼의 출시는 AI 비디오 생성 기술의 중요한 단계를 의미하며 개발자와 제작자에게 더 강력한 도구와 더 넓은 창작 공간을 제공합니다. 앞으로 CogVideoX를 기반으로 한 더욱 흥미로운 애플리케이션을 볼 수 있기를 기대합니다.