Downcodes의 편집자는 Zhipu AI Company가 최근 새로운 비디오 생성 모델 CogVideoX-5B를 오픈 소스로 공개했다는 사실을 알게 되었습니다. 이 모델은 비디오 생성 품질, 시각 효과 및 추론 성능이 크게 향상되었으며, 이는 이전 세대 제품인 CogVideoX-2B에 비해 크게 향상되었습니다. 초기 GTX 1080Ti 카드도 이전 세대 모델을 실행할 수 있는 반면, RTX 3060과 같은 주류 카드는 CogVideoX-5B를 쉽게 처리할 수 있습니다. 이는 고품질 비디오 생성 기술에 대한 문턱을 더욱 낮춰 더 많은 개발자와 사용자에게 편리하고 효율적인 비디오 생성 솔루션을 제공합니다.
최근 Zhipu AI Company는 새로운 비디오 생성 모델인 CogVideoX-5B를 오픈 소스로 공개했습니다. 이는 비디오 생성 품질과 시각 효과 측면에서 이전 세대 제품인 CogVideoX-2B를 능가할 뿐만 아니라 추론 성능도 크게 향상되어 Early를 만들었습니다. GTX1080Ti 그래픽 카드는 이전 세대 모델을 실행할 수 있으며 RTX3060과 같은 데스크톱 디저트 수준의 그래픽 카드는 이 새로운 모델을 쉽게 처리할 수 있습니다.
CogVideoX-5B와 CogVideoX-2B 간의 자세한 매개변수 비교:
이 대규모 DiT(확산 변환기) 모델은 텍스트-비디오 생성 작업을 수행하도록 설계되었습니다. 그 뒤에 있는 기술에는 비디오 데이터를 잠재 공간으로 압축하고 시간 차원에서 디코딩하여 효율적인 비디오 재구성을 달성하는 3D 인과 변형 자동 인코더(3D Causal VAE)가 포함되어 있습니다.
또한 Expert Transformer의 사용은 텍스트 임베딩과 비디오 임베딩을 결합하고 위치 인코딩으로 3D-RoPE를 사용하며 Expert Adaptive Layer를 통해 두 양식의 데이터를 정규화하고 3D Full Attention을 사용합니다. 힘 메커니즘은 공간에서 공동으로 모델링됩니다. 그리고 시간.
코드: https://top.aibase.com/tool/cogvideox
모델 다운로드: https://huggingface.co/THUDM/CogVideoX-5b
논문 링크: https://arxiv.org/pdf/2408.06072
CogVideoX-5B의 오픈 소스는 비디오 생성 분야에 새로운 혁신을 가져왔고, 기술 한계점을 낮추었으며, 향후 연구 및 응용을 위한 견고한 기반을 제공했습니다. Downcodes의 편집자는 이 기술이 비디오 생성 기술의 추가 개발을 촉진하고 더 많은 분야에 혁신적인 응용 프로그램을 제공할 것이라고 믿습니다.