ByteDance는 정적 인물 사진이 오디오 입력을 통해 "말하고" 반응할 수 있게 해주는 새로운 AI 시스템인 INFP를 출시했습니다. INFP는 기존 기술과 달리 역할을 수동으로 지정할 필요가 없으며 대화를 바탕으로 자동으로 판단할 수 있어 효율성과 편의성이 크게 향상됩니다. 핵심 기술은 '모션 기반 머리 모방'과 '오디오 가이드 모션 생성' 2단계에 있으며, 대화 중 표정, 머리 움직임, 오디오 입력을 분석해 자연스럽고 부드러운 모션 패턴을 생성해 정적인 이미지를 구현한다. 인생에. INFP를 교육하기 위해 ByteDance는 시스템의 고품질 출력을 보장하기 위해 200시간 이상의 실제 대화 비디오가 포함된 DyConv 데이터 세트도 구축했습니다.
INFP의 작업 흐름에는 두 가지 주요 단계가 있습니다. '모션 기반 머리 모방'이라는 첫 번째 단계에서 시스템은 대화 중 사람들의 얼굴 표정과 머리 움직임을 분석하여 비디오에서 세부 정보를 추출합니다. 이 모션 데이터는 후속 애니메이션에서 사용할 수 있는 형식으로 변환되어 스틸 사진이 원본 캐릭터의 모션과 일치할 수 있습니다.
두 번째 단계는 시스템이 오디오 입력을 기반으로 자연스러운 모션 패턴을 생성하는 "오디오 가이드 모션 생성"입니다. 연구팀은 대화 중 양측의 소리를 분석해 말하고 듣기 위한 움직임 패턴을 만드는 '모션 가이드'를 개발했다. 그러면 Diffusion Transformer라는 AI 구성 요소가 이러한 패턴을 점진적으로 최적화하여 오디오 콘텐츠와 완벽하게 일치하는 부드럽고 사실적인 모션을 구현합니다.
연구팀은 시스템을 효과적으로 훈련시키기 위해 200시간 이상의 실제 대화 영상을 수집한 DyConv라는 대화 데이터 세트도 구축했다. ViCo, RealTalk 등 기존 대화 데이터베이스와 비교하여 DyConv는 감정 표현 및 영상 품질에서 독특한 장점을 가지고 있습니다.
ByteDance는 INFP가 특히 입술 움직임과 음성 일치, 개별 얼굴 특징 보존, 다양하고 자연스러운 움직임 생성과 같은 여러 주요 영역에서 기존 도구보다 성능이 뛰어나다고 말합니다. 또한, 시스템은 대담자만 들리는 비디오를 생성할 때에도 동일하게 잘 수행되었습니다.
INFP는 현재 오디오 입력만 지원하지만, 연구팀은 시스템을 이미지와 텍스트로 확장할 수 있는 가능성을 모색하고 있습니다. 향후 목표는 캐릭터 전신의 사실적인 애니메이션을 만드는 것입니다. 그러나 연구팀은 이런 기술이 가짜 영상을 제작하고 잘못된 정보를 퍼뜨리는 데 사용될 수 있다는 점을 고려해 마이크로소프트가 첨단 음성 복제 시스템을 관리하는 것과 마찬가지로 핵심 기술의 활용을 연구 기관으로 제한할 계획이다.
이 기술은 ByteDance의 광범위한 AI 전략의 일부입니다. 인기 있는 애플리케이션인 TikTok 및 CapCut을 기반으로 ByteDance는 광범위한 AI 혁신 애플리케이션 플랫폼을 보유하고 있습니다.
프로젝트 입구: https://grisoon.github.io/INFP/
하이라이트:
INFP는 정적 인물 사진이 오디오를 통해 "말"하도록 허용하고 자동으로 대화 역할을 결정할 수 있습니다.
이 시스템은 두 단계로 작동합니다. 첫째, 인간 대화에서 동작 세부 정보를 추출하고, 둘째, 오디오를 자연스러운 동작 패턴으로 변환합니다.
ByteDance의 DyConv 데이터 세트에는 시스템 성능 향상에 도움이 되는 200시간 이상의 고품질 대화 비디오가 포함되어 있습니다.
INFP 시스템의 출시는 인공 지능 분야에서 ByteDance의 혁신적인 강점을 보여줍니다. 향후 개발 잠재력은 엄청나지만 잠재적인 윤리적 위험도 신중하게 처리해야 합니다. 기술의 발전은 언제나 사회적 이익을 지향해야 하며, 인류에게 이익이 되도록 활용되어야 합니다.