Bahri Batuhan Bilecen, Ahmet Berke Gokmen, Furkan Guzelant, dan Aysegul Dundar
Stilisasi kepala 3D mengubah fitur wajah realistis menjadi representasi artistik, meningkatkan keterlibatan pengguna di aplikasi game dan realitas virtual. Meskipun generator sadar 3D telah membuat kemajuan yang signifikan, banyak metode penataan gaya 3D terutama memberikan pandangan hampir frontal dan berjuang untuk mempertahankan identitas unik subjek asli, sering kali menghasilkan keluaran yang kurang beragam dan individualitas. Makalah ini mengatasi tantangan ini dengan memanfaatkan model PanoHead, mensintesis gambar dari perspektif 360 derajat yang komprehensif. Kami mengusulkan kerangka kerja baru yang menggunakan distilasi kemungkinan log negatif (LD) untuk meningkatkan pelestarian identitas dan meningkatkan kualitas stilisasi. Dengan mengintegrasikan skor grid multi-tampilan dan gradien cermin dalam arsitektur GAN 3D dan memperkenalkan teknik penimbangan peringkat skor, pendekatan kami mencapai peningkatan kualitatif dan kuantitatif yang substansial. Temuan kami tidak hanya memajukan penataan kepala 3D tetapi juga memberikan wawasan berharga tentang proses distilasi yang efektif antara model difusi dan GAN, dengan fokus pada masalah kritis pelestarian identitas.
git clone --recursive https://github.com/three-bee/3d_head_stylization.git
cd ./3d_head_stylization && pip install -r requirements.txt
Kami mengikuti pendekatan PanoHead untuk ekstraksi pose dan penyelarasan wajah. Untuk ini, Anda perlu mengikuti prosedur pengaturan PanoHead dan memastikan bahwa Anda tidak melewatkan pengaturan 3DDFA_V2. Kemudian, jalankan PanoHead/projector.py
dan hilangkan tahapan project_pti
untuk hanya melakukan pengkodean W+.
Demi kenyamanan Anda, kami menyediakan W+ laten dari beberapa identitas kehidupan nyata dalam folder example
.
Unduh semua jaringan ke lokasi yang Anda inginkan. Kami juga menyediakan pos pemeriksaan generator bergaya untuk beberapa petunjuk di tautan ini.
Jaringan | Nama file | Lokasi |
---|---|---|
Kepala Pano | easy-khair-180-gpc0.8-trans10-025000.pkl | ${G_ckpt_path} |
Visi Realistis v5.1 | Realistic_Vision_V5.1_noVAE/ | ${diff_ckpt_path} |
Tepi ControlNet | sd-controlnet-canny/ | ${controlnet_edge_path} |
Kedalaman ControlNet | sd-controlnet-depth/ | ${controlnet_depth_path} |
Kedalaman Apa PunV2 | depth_anything_v2_vitb.pth | ${depth_path} |
Ubah ${stylized_G_ckpt_path}
dengan jalur pos pemeriksaan yang diberikan di tautan ini. folder example
menyediakan beberapa kepala berkode W+ di kehidupan nyata. Memberikan jalur yang tidak valid ke latent_list_path
akan mengubah gaya synth_sample_num
sampel sintetis.
python infer_LD.py
--save_path "work_dirs/demo"
--G_ckpt_path ${G_ckpt_path}
--stylized_G_ckpt_path ${stylized_G_ckpt_path}
--latent_list_path "example"
--synth_sample_num 10
Ubah prompt
dan save_path
. Anda dapat bermain-main dengan hyperparameter lain di file pelatihan.
python train_LD.py
--prompt "Portrait of a werewolf"
--save_path "work_dirs/demo"
--diff_ckpt_path ${diff_ckpt_path}
--depth_path ${depth_path}
--G_ckpt_path ${G_ckpt_path}
--controlnet_edge_path ${controlnet_edge_path}
--controlnet_depth_path ${controlnet_depth_path}
@misc{bilecen2024identitypreserving3dhead,
title={Identity Preserving 3D Head Stylization with Multiview Score Distillation},
author={Bahri Batuhan Bilecen and Ahmet Berke Gokmen and Furkan Guzelant and Aysegul Dundar},
year={2024},
url={https://arxiv.org/abs/2411.13536},
}
Hak Cipta 2024 Bilkent DLR. Berlisensi di bawah Lisensi Apache, Versi 2.0 ("Lisensi").