Bytedance는 단일 사진을 기반으로 현실적인 전신 비디오를 생성하여 캐릭터의 연설, 노래 및 자연 운동을 보여주는 새로운 AI 시스템 Omnihuman을 출시했습니다. 이 기술은 텍스트, 오디오 및 인간 움직임과 같은 다양한 입력을 결합하고 "전체 조건"교육 방법을 채택하여 결과적인 비디오 품질이 크게 향상되어 얼굴을 다룰 수있는 이전의 기능을 능가합니다. 또는 상체 모델. Omnihuman의 출현은 디지털 엔터테인먼트 및 커뮤니케이션 분야에서 새로운 변화가 나타날 것이며, 비디오 제작, 교육 콘텐츠 제작 및 디지털 커뮤니케이션에 무제한 가능성을 제공합니다.
Omnihuman은 얼굴이나 상체 만 시뮬레이션 할 수있는 AI 모델을 능가하여 말할 때 캐릭터의 제스처와 역학을 보여주는 전신 비디오를 생성 할 수 있습니다. 이 기술의 핵심은 텍스트, 오디오 및 인간 움직임과 같은 여러 입력을 결합하여 AI가 "전체 조건"교육이라는 혁신적인 접근법을 통해 더 크고 풍부한 데이터 센터에서 배울 수 있다는 것입니다.
연구팀은 옴니 누만이 18,700 시간 이상의 인간 비디오 데이터 교육 후 상당한 진전을 보였다고 지적했다. 이 기술은 여러 조건부 신호 (예 : 텍스트, 오디오 및 포즈)를 도입함으로써 비디오 생성의 품질을 향상시킬뿐만 아니라 데이터 폐기물을 효과적으로 줄입니다.
연구자들은 Arxiv에 발표 된 논문에서 언급 한 인간 애니메이션의 최종 -엔드 엔드 기술이 최근 몇 년 동안 상당한 진전을 보였지만 기존 방법은 여전히 응용 프로그램 척도 확장에 제한이 있습니다.
Omnihuman은 광범위한 응용 프로그램 잠재력을 가지고 있으며 연설 비디오를 만들고 악기 공연을 보여주는 데 사용될 수 있습니다. 테스트 후 기술은 여러 품질의 벤치 마크에서 기존 시스템을 능가하여 우수한 성능을 보여줍니다. 이 개발은 점점 경쟁이 치열 해지는 AI 비디오 생성 기술로 인해 Google, Meta 및 Microsoft와 같은 회사가 비슷한 기술을 적극적으로 추구합니다.
그러나 Omnihuman은 엔터테인먼트 제작, 교육용 컨텐츠 제작 및 디지털 커뮤니케이션에 변화가있을 가능성을 제시하지만 합성 미디어의 잠재적 오용에 대한 우려를 불러 일으켰습니다. 연구팀은 다가오는 컴퓨터 비전 컨퍼런스에서 연구 결과를 보여줄 것이지만, 특정 시간과 회의는 아직 발표되지 않았다.
논문 : https://arxiv.org/pdf/2502.01061
전철기:
Omnihuman은 단일 사진을 현실적인 전신 비디오로 변환 할 수있는 새로운 유형의 AI입니다.
18,700 시간의 인간 비디오 데이터 교육 후,이 기술은 다양한 입력 신호를 결합하여 생성 효과를 향상시킵니다.
광범위한 응용 잠재력에도 불구하고, 합성 매체가 남용 될 가능성에 대한 우려를 제기했다.
Omnihuman 기술의 혁신은 AI 비디오 생성 분야에 대한 새로운 벤치 마크를 설정했지만 동시에 기술은 미래의 윤리적 위험에주의를 기울여야합니다. 합리적으로 사용되며 부정적인 영향을 피하십시오. 앞으로 Omnihuman에 대한 더 많은 응용 프로그램 및 연구 결과를 기대합니다.