Bahri Batuhan Bilecen, Ahmet Berke Gokmen, Furkan Guzelant y Aysegul Dundar
La estilización de la cabeza en 3D transforma rasgos faciales realistas en representaciones artísticas, mejorando la participación del usuario en aplicaciones de juegos y realidad virtual. Si bien los generadores 3D han logrado avances significativos, muchos métodos de estilización 3D brindan principalmente vistas casi frontales y luchan por preservar las identidades únicas de los sujetos originales, lo que a menudo resulta en resultados que carecen de diversidad e individualidad. Este artículo aborda estos desafíos aprovechando el modelo PanoHead, sintetizando imágenes desde una perspectiva integral de 360 grados. Proponemos un marco novedoso que emplea destilación de probabilidad logarítmica (LD) negativa para mejorar la preservación de la identidad y mejorar la calidad de la estilización. Al integrar la puntuación de cuadrícula de múltiples vistas y los gradientes de espejo dentro de la arquitectura GAN 3D e introducir una técnica de ponderación de rango de puntuación, nuestro enfoque logra mejoras cualitativas y cuantitativas sustanciales. Nuestros hallazgos no solo avanzan el estado de la estilización de cabezas 3D, sino que también brindan información valiosa sobre procesos de destilación efectivos entre modelos de difusión y GAN, centrándose en la cuestión crítica de la preservación de la identidad.
git clone --recursive https://github.com/three-bee/3d_head_stylization.git
cd ./3d_head_stylization && pip install -r requirements.txt
Seguimos el enfoque de PanoHead para la extracción de poses y la alineación facial. Para ello, debe seguir el procedimiento de configuración de PanoHead y asegurarse de no omitir la configuración de 3DDFA_V2. Luego, ejecute PanoHead/projector.py
y omita la etapa project_pti
para realizar solo la codificación W+.
Para su comodidad, proporcionamos latentes W+ de varias identidades de la vida real en la carpeta example
.
Descargue todas las redes a las ubicaciones que desee. También proporcionamos puntos de control del generador estilizados para varias indicaciones en este enlace.
Red | Nombre del archivo | Ubicación |
---|---|---|
Panocabeza | easy-khair-180-gpc0.8-trans10-025000.pkl | ${G_ckpt_path} |
Visión realista v5.1 | Realistic_Vision_V5.1_noVAE/ | ${diff_ckpt_path} |
Borde ControlNet | sd-controlnet-canny/ | ${controlnet_edge_path} |
Profundidad de ControlNet | sd-controlnet-depth/ | ${controlnet_depth_path} |
ProfundidadCualquier cosaV2 | depth_anything_v2_vitb.pth | ${depth_path} |
Cambie ${stylized_G_ckpt_path}
con las rutas de los puntos de control que se indican en este enlace. La carpeta example
proporciona varios cabezales codificados W+ de la vida real. Dar una ruta no válida a latent_list_path
estilizará synth_sample_num
de muestras sintéticas.
python infer_LD.py
--save_path "work_dirs/demo"
--G_ckpt_path ${G_ckpt_path}
--stylized_G_ckpt_path ${stylized_G_ckpt_path}
--latent_list_path "example"
--synth_sample_num 10
Cambie prompt
y save_path
. Puedes jugar con otros hiperparámetros en el archivo de entrenamiento.
python train_LD.py
--prompt "Portrait of a werewolf"
--save_path "work_dirs/demo"
--diff_ckpt_path ${diff_ckpt_path}
--depth_path ${depth_path}
--G_ckpt_path ${G_ckpt_path}
--controlnet_edge_path ${controlnet_edge_path}
--controlnet_depth_path ${controlnet_depth_path}
@misc{bilecen2024identitypreserving3dhead,
title={Identity Preserving 3D Head Stylization with Multiview Score Distillation},
author={Bahri Batuhan Bilecen and Ahmet Berke Gokmen and Furkan Guzelant and Aysegul Dundar},
year={2024},
url={https://arxiv.org/abs/2411.13536},
}
Copyright 2024 BilkentDLR. Licenciado bajo la Licencia Apache, Versión 2.0 (la "Licencia").