ByteDance에서 출시한 최신 LatentSync 립싱크 프레임워크는 Stable Diffusion을 기반으로 하는 오디오 조건부 잠재 확산 모델을 사용하여 보다 정확하고 효율적인 립싱크 효과를 구현합니다. 이전 방법과 달리 LatentSync는 중간 모션 표현 없이 오디오와 비전 간의 복잡한 관계를 직접 모델링하는 엔드투엔드 접근 방식을 채택하여 처리 효율성과 동기화 정확도를 크게 향상시킵니다. 이 프레임워크는 오디오 임베딩을 위해 Whisper를 교묘하게 사용하고 이를 TREPA 메커니즘과 결합하여 시간적 일관성을 향상시켜 출력 비디오가 립싱크 정확도를 유지하면서 시간적 일관성을 유지하도록 보장합니다.
최근 ByteDance는 오디오 조건 잠재 확산 모델을 사용하여 보다 정확한 립 동기화를 달성하는 것을 목표로 하는 LatentSync라는 새로운 립 동기화 프레임워크를 출시했습니다. 프레임워크는 Stable Diffusion을 기반으로 하며 시간 일관성에 최적화되어 있습니다.
픽셀 공간 확산 또는 2단계 생성을 기반으로 하는 이전 방법과 달리 LatentSync는 중간 모션 표현이 필요 없는 엔드투엔드 접근 방식을 채택하고 복잡한 시청각 관계를 직접 모델링할 수 있습니다.
LatentSync 프레임워크에서 Whisper는 먼저 오디오 스펙트로그램을 오디오 임베딩으로 변환하는 데 사용되며 교차 주의 레이어를 통해 U-Net 모델에 통합됩니다. 프레임워크는 U-Net에 대한 입력으로 잡음 잠재 변수를 사용하여 참조 프레임과 마스크 프레임의 채널 수준 연결을 수행합니다.
훈련 중에는 1단계 접근 방식을 사용하여 예측 노이즈로부터 깨끗한 잠재 변수를 추정한 다음 디코딩하여 깨끗한 프레임을 생성합니다. 동시에 모델은 시간적 일관성을 향상시키고 생성된 비디오가 입술 동기화 정확도를 유지하면서 시간적 일관성을 유지할 수 있도록 하기 위해 TREPA(Temporal REPresentation Alignment) 메커니즘을 도입합니다.
이 기술의 효율성을 입증하기 위해 프로젝트에서는 원본 비디오와 립싱크 비디오를 보여주는 일련의 샘플 비디오를 제공합니다. 영상 립싱크 분야에서 LatentSync의 비약적인 발전을 사용자는 예시를 통해 직관적으로 느낄 수 있습니다.
원본 영상:
출력 비디오:
또한 이 프로젝트는 사용자의 교육 및 테스트를 용이하게 하기 위해 추론 코드와 체크포인트를 오픈 소스로 제공할 계획입니다. 추론을 시도하려는 사용자의 경우 필요한 모델 가중치 파일을 다운로드하기만 하면 바로 사용할 수 있습니다. 비디오 파일 처리부터 얼굴 정렬까지 모든 단계를 포괄하는 완전한 데이터 처리 프로세스도 설계되어 사용자가 쉽게 시작할 수 있습니다.
모델 프로젝트 입구: https://github.com/bytedance/LatentSync
하이라이트:
LatentSync는 중간 모션 표현이 필요 없는 오디오 조건부 잠재 확산 모델을 기반으로 하는 종단 간 동기화 프레임워크입니다.
프레임워크는 Whisper를 활용하여 오디오 스펙트로그램을 임베딩으로 변환하여 립싱크 중에 모델의 정확성과 시간적 일관성을 향상시킵니다.
이 프로젝트는 일련의 샘플 비디오를 제공하고 사용자 사용 및 교육을 용이하게 하기 위해 관련 코드 및 데이터 처리 프로세스를 오픈 소스로 제공할 계획입니다.
LatentSync의 오픈 소스와 사용 편의성은 립싱크 기술의 추가 개발 및 적용을 촉진하여 비디오 편집 및 콘텐츠 제작 분야에 새로운 가능성을 가져올 것입니다. 더 많은 놀라움을 가져올 이 프로젝트의 후속 업데이트를 기대합니다.