Bahri Batuhan Bilecen, Ahmet Berke Gokmen, Furkan Guzelant, Aysegul Dundar
3D 머리 스타일화는 현실적인 얼굴 특징을 예술적인 표현으로 변환하여 게임 및 가상 현실 애플리케이션 전반에 걸쳐 사용자 참여를 향상시킵니다. 3D 인식 생성기가 상당한 발전을 이루었지만 많은 3D 스타일화 방법은 주로 정면 뷰를 제공하고 원본 피사체의 고유한 정체성을 보존하는 데 어려움을 겪어 종종 다양성과 개성이 부족한 출력을 초래합니다. 이 문서에서는 PanoHead 모델을 활용하고 포괄적인 360도 관점에서 이미지를 합성하여 이러한 문제를 해결합니다. 우리는 신원 보존을 강화하고 스타일화 품질을 향상시키기 위해 음의 로그 우도 증류(LD)를 사용하는 새로운 프레임워크를 제안합니다. 3D GAN 아키텍처 내에서 다중 뷰 그리드 점수와 미러 그라데이션을 통합하고 점수 순위 가중치 기술을 도입함으로써 우리의 접근 방식은 상당한 질적, 양적 개선을 달성합니다. 우리의 연구 결과는 3D 머리 스타일화 상태를 발전시킬 뿐만 아니라 정체성 보존이라는 중요한 문제에 초점을 맞춰 확산 모델과 GAN 사이의 효과적인 증류 프로세스에 대한 귀중한 통찰력을 제공합니다.
git clone --recursive https://github.com/three-bee/3d_head_stylization.git
cd ./3d_head_stylization && pip install -r requirements.txt
우리는 포즈 추출 및 얼굴 정렬에 대해 PanoHead의 접근 방식을 따릅니다. 이를 위해서는 PanoHead의 설정 절차를 따르고 3DDFA_V2 설정을 건너뛰지 않도록 해야 합니다. 그런 다음 PanoHead/projector.py
실행하고 project_pti
단계를 생략하여 W+ 인코딩만 수행합니다.
귀하의 편의를 위해 example
폴더에 여러 실제 신원의 W+ 잠재성을 제공합니다.
모든 네트워크를 원하는 위치에 다운로드하세요. 또한 이 링크에서는 여러 프롬프트에 대한 양식화된 생성기 체크포인트를 제공합니다.
회로망 | 파일 이름 | 위치 |
---|---|---|
파노헤드 | easy-khair-180-gpc0.8-trans10-025000.pkl | ${G_ckpt_path} |
현실적인 비전 v5.1 | Realistic_Vision_V5.1_noVAE/ | ${diff_ckpt_path} |
ControlNet 에지 | sd-controlnet-canny/ | ${controlnet_edge_path} |
ControlNet 깊이 | sd-controlnet-depth/ | ${controlnet_depth_path} |
DepthAnythingV2 | depth_anything_v2_vitb.pth | ${depth_path} |
${stylized_G_ckpt_path}
이 링크에 제공된 체크포인트 경로로 변경하세요. example
폴더는 여러 가지 실제 W+ 인코딩 헤드를 제공합니다. latent_list_path
에 유효하지 않은 경로를 제공하면 합성 샘플의 synth_sample_num
스타일화됩니다.
python infer_LD.py
--save_path "work_dirs/demo"
--G_ckpt_path ${G_ckpt_path}
--stylized_G_ckpt_path ${stylized_G_ckpt_path}
--latent_list_path "example"
--synth_sample_num 10
prompt
및 save_path
변경하십시오. 훈련 파일에서 다른 하이퍼파라미터를 가지고 놀 수 있습니다.
python train_LD.py
--prompt "Portrait of a werewolf"
--save_path "work_dirs/demo"
--diff_ckpt_path ${diff_ckpt_path}
--depth_path ${depth_path}
--G_ckpt_path ${G_ckpt_path}
--controlnet_edge_path ${controlnet_edge_path}
--controlnet_depth_path ${controlnet_depth_path}
@misc{bilecen2024identitypreserving3dhead,
title={Identity Preserving 3D Head Stylization with Multiview Score Distillation},
author={Bahri Batuhan Bilecen and Ahmet Berke Gokmen and Furkan Guzelant and Aysegul Dundar},
year={2024},
url={https://arxiv.org/abs/2411.13536},
}
저작권 2024 빌켄트 DLR. Apache 라이센스 버전 2.0("라이센스")에 따라 라이센스가 부여됩니다.