최근 몇 년 동안 AI 기술은 특히 애니메이션 제작 분야에서 급속도로 발전했습니다. 정적 이미지를 기반으로 역동적인 비디오를 생성하는 것이 연구 핫스팟이 되었습니다. 전통적인 애니메이션 제작 방법은 부족한 골격 자세 정보에 의존하는 경우가 많아 애니메이션 효과가 충분히 정확하지 않습니다. 이러한 문제를 해결하기 위해 새로운 기술이 끊임없이 등장하고 있으며 보다 정확하고 제어 가능한 캐릭터 이미지 애니메이션을 달성하기 위해 노력하고 있습니다.
최근에는 인공지능과 컴퓨터 비전 기술의 급속한 발전으로 인간과 컴퓨터의 상호작용이 더욱 생생하고 표현력이 풍부해졌습니다. 특히 애니메이션 제작 분야에서는 정적인 이미지를 기반으로 역동적인 영상을 생성하는 방법이 항상 뜨거운 연구 주제였습니다.
최근에는 분리된 자세 안내를 통해 보다 제어 가능한 캐릭터 이미지 애니메이션 효과를 구현하는 'DisPose'라는 신기술이 등장했습니다. 간단히 말해서 DisPose는 액션 비디오와 참조 캐릭터의 입력을 가능하게 하여 참조 캐릭터가 비디오의 액션을 실현할 수 있도록 합니다.
DisPose 기술의 핵심은 전통적인 희소 포즈 정보를 재구성하고 활용하는 것입니다. 기존 방법은 주로 희박한 골격 포즈 안내에 의존하는데, 이는 동적으로 비디오를 생성할 때 충분한 제어 신호를 제공할 수 없어 애니메이션 효과가 충분히 상세하지 않게 되는 경우가 많습니다. 이러한 단점을 보완하기 위해 DisPose는 희박한 포즈 정보를 스포츠 현장 안내 및 핵심 포인트 대응으로 변환하여 보다 상세한 모션 생성을 달성하는 새로운 방법을 제안합니다.
구체적으로 DisPose는 먼저 골격 포즈에 대한 희소 모션 필드를 계산하고 참조 이미지를 기반으로 조밀한 모션 필드 생성 방법을 도입합니다. 이 접근 방식은 지역 수준의 동작 신호를 제공할 뿐만 아니라 희소 자세 제어의 보편성을 유지합니다. 동시에 DisPose는 참조 이미지에서 포즈 핵심 포인트에 해당하는 확산 특징을 추출한 다음 다중 스케일 점 대응을 계산하여 이러한 특징을 대상 포즈로 전송하여 모양의 일관성을 향상시킵니다.
이 혁신적인 기술을 기존 모델에 원활하게 통합할 수 있도록 연구원들은 플러그인 하이브리드 ControlNet 아키텍처도 제안했습니다. 이 아키텍처는 기존 모델 매개변수를 변경하지 않고도 생성된 비디오의 품질과 일관성을 향상시킵니다. DisPose는 광범위한 정성적, 정량적 실험을 통해 현재 기술에 비해 상당한 이점을 입증하고 애니메이션 제작 기술의 미래 방향을 예고합니다.
DisPose는 자세 정보의 사용을 최적화하여 인물 애니메이션의 표현력과 제어성을 향상시킵니다. 이러한 진전은 학문적 연구에 있어 큰 의미를 가질 뿐만 아니라, 미래 애니메이션 산업에 새로운 가능성을 열어준다.
프로젝트 입구: https://lihxxx.github.io/DisPose/
하이라이트:
DisPose는 분리된 포즈 안내를 통해 보다 정확한 동적 생성을 가능하게 하는 새로운 인물 애니메이션 기술입니다.
희박한 자세 정보를 동작 현장 안내 및 핵심 포인트 대응으로 변환하여 상세한 동작 신호를 제공하는 기술입니다.
연구진이 제안한 하이브리드 ControlNet 아키텍처는 생성된 비디오의 품질과 일관성을 효과적으로 향상시킬 수 있습니다.
DisPose 기술의 등장은 애니메이션 제작 기술에 새로운 이정표를 세웠습니다. 효율적인 제스처 정보 처리 방법과 혁신적인 하이브리드 ControlNet 아키텍처는 향후 더욱 사실적이고 상세한 인물 애니메이션 제작을 위한 강력한 기술 지원을 제공하며 애니메이션 산업에 무한한 가능성을 제공합니다. 앞으로도 DisPose가 애니메이션 제작에 있어서 더 큰 역할을 해주기를 기대합니다.