Meta는 사우디 아라비아의 Abdullah University of Technology (Kaust)와 제휴하여 Mardini라는 새로운 일련의 비디오 확산 모델을 출시했습니다. 이 모델은 비디오 보간, 이미지-비디오 변환 및 비디오 확장을 포함하여 다양한 비디오 생성 작업을 효율적으로 완료하여 고품질 비디오 생성 프로세스를 크게 단순화 할 수 있습니다. Mardini는 계획 모델과 생성 모델의 조합을 사용하여 MAR (Mast AutoreGression) 방법 및 확산 프로세스를 통해 적은 단계로 고품질 비디오를 생성하여 성능 및 효율성에 중요한 이점을 보여주고 비디오 제작자에게 강력한 도구를 제공하고 새로운 산업 벤치 마크를 설정합니다.
작년을 기준으로 Meta는 AI 비디오를 생성하는 분야에서 더 많은 노력을 기울였습니다. 이전에는 EMU 비디오 및 EMU 편집과 같은 텍스트-비디오 및 편집 모델을 시작했습니다. 올해 고급 비디오 편집기 영화 Gen도 출시되었습니다. 이것은 Meta가 비디오 제작자에게보다 강력한 도구를 제공하기 위해 최선을 다하고 있음을 보여줍니다.
Mardini의 힘은 모든 마스크 된 프레임을 기반으로 비디오를 생성 할 수 있으며 비디오 보간, 이미지-비디오 변환 및 비디오 확장과 같은 다양한 생성 작업을 지원한다는 것입니다.
비디오 결과에서 이미지그 중에서 Mardini의 주요 응용 프로그램은 이미지 간 비디오 생성입니다. 이 기능은 중간에있는 참조 프레임을 조건부 입력으로 사용하고 16 개의 추가 프레임을 생성함으로써 시연됩니다. 공식 생성 된 비디오 예제에서는 8FPS로 렌더링 된 17 프레임을 매끄럽게 2 초 비디오로 생성 할 수 있습니다.
비디오 확장 결과Mardini를 사용하면 기존 비디오를 일정 시간 동안 조정하여 비디오를 확장 할 수 있습니다. 5 프레임 참조 비디오에서 2 초 확장을 생성하여 각 시퀀스에 12 개의 새로운 프레임을 추가합니다.
비디오 보간 결과Mardini는 첫 번째 및 마지막 프레임을 조정 신호로 사용하여 중간 프레임을 생성하여 비디오 보간을 구현합니다. 이러한 경계 프레임이 동일하면 Mardini는 원활한 루핑 비디오를 만들 수 있습니다.
Mardini의 작동 방식은 매우 흥미 롭습니다. 계획 모델과 생성 모델의 두 부분으로 구성된 고급 및 효율적인 비디오 생성 기술을 채택합니다. 먼저, 계획 모델은 MAR (Mast AutoreGression) 방법을 사용하여 저해상도 입력 프레임을 해석하여 생성 해야하는 프레임에 대한 안내 신호를 생성합니다. 그런 다음 가벼운 생성 모델은 확산 프로세스를 통해 고해상도 상세 프레임을 생성하여 최종 비디오가 매끄럽고 시각적으로 우수합니다.
복잡한 미리 훈련 된 이미지 모델이 필요한 많은 비디오 모델과 달리 Mardini는 표지되지 않은 비디오 데이터를 사용하여 처음부터 훈련을 받았다고 주장합니다. 이는 점진적인 교육 전략을 채택하기 때문에 훈련 중에 프레임의 마스킹 방법을 유연하게 조정하여 모델이 다른 프레임 구성에 더 잘 대처할 수 있기 때문입니다.
Mardini의 독특한 특징은 유연성과 성능입니다. 강력 할뿐만 아니라 효율적이며 더 큰 작업에 적합합니다. 이 모델은 기존 비디오 클립을 부드럽게하거나 처음부터 완전한 시퀀스를 생성하는지 여부에 관계없이 비디오 보간, 이미지 간 비디오 생성 및 비디오 확장과 같은 다양한 작업을 처리 할 수 있습니다.
성능 측면에서 Mardini는 단계가 적은 단계로 고품질 비디오를 생성하기 위해 새로운 벤치 마크를 설정하여 더 복잡한 대안보다 비용이 많이 들고 시간이 더 많이 발생합니다. "우리의 연구에 따르면 우리의 모델링 전략은 다양한 보간 및 애니메이션 벤치 마크에서 경쟁력을 보여 주면서 비슷한 매개 변수 척도에서 계산 수요를 줄입니다."
프로젝트 입구 : https://mardini-vidgen.github.io/
핵심 사항 :
Mardini는 Meta와 Kaust가 시작한 새로운 세대 비디오 세대 모델로 다양한 비디오 제작 작업을 쉽게 완료 할 수 있습니다.
이 모델은 계획 및 생성 모델의 조합을 통해 효율적인 비디오 보간 및 이미지 간 비디오 생성을 달성합니다.
Mardini는 단계가 적은 고품질 비디오를 생성하여 창조의 유연성과 효율성을 크게 향상시킵니다.
요컨대, Mardini의 출현은 비디오 생성 기술의 상당한 발전을 보여줍니다. 효율적인 성능과 유연한 응용 시나리오와 함께 비디오 제작 분야에 새로운 가능성이 제공됩니다. 앞으로 Mardini는 영화 제작, 애니메이션 제작 및 비디오 생성이 필요한 기타 영역에서 더 큰 역할을 할 수 있습니다.