Бахри Батухан Билесен, Ахмет Берке Гокмен, Фуркан Гузелант и Айсегуль Дундар
3D-стилизация головы преобразует реалистичные черты лица в художественные изображения, повышая вовлеченность пользователей в играх и приложениях виртуальной реальности. Хотя генераторы с поддержкой 3D добились значительных успехов, многие методы 3D-стилизации в основном обеспечивают почти фронтальный вид и изо всех сил пытаются сохранить уникальную индивидуальность исходных объектов, что часто приводит к тому, что на выходе отсутствует разнообразие и индивидуальность. В данной статье эти проблемы решаются путем использования модели PanoHead, синтезирующей изображения с комплексной 360-градусной точки зрения. Мы предлагаем новую структуру, которая использует отрицательную логарифмическую дистилляцию (LD) для улучшения сохранения идентичности и улучшения качества стилизации. Путем интеграции оценок многоракурсной сетки и зеркальных градиентов в архитектуру 3D GAN и внедрения метода рангового взвешивания оценок наш подход позволяет добиться существенных качественных и количественных улучшений. Наши результаты не только улучшают состояние 3D-стилизации голов, но и дают ценную информацию об эффективных процессах дистилляции между диффузионными моделями и GAN, уделяя особое внимание критической проблеме сохранения идентичности.
git clone --recursive https://github.com/three-bee/3d_head_stylization.git
cd ./3d_head_stylization && pip install -r requirements.txt
Мы следуем подходу PanoHead к выделению позы и выравниванию лица. Для этого вам необходимо следовать процедуре настройки PanoHead и убедиться, что вы не пропустили настройку 3DDFA_V2. Затем запустите PanoHead/projector.py
и пропустите этап project_pti
чтобы выполнять только кодирование W+.
Для вашего удобства мы предоставляем скрытые W+ несколько реальных личностей в папке example
.
Загрузите все сети в нужные места. Мы также предоставляем стилизованные контрольные точки генератора для нескольких подсказок по этой ссылке.
Сеть | Имя файла | Расположение |
---|---|---|
Панохед | easy-khair-180-gpc0.8-trans10-025000.pkl | ${G_ckpt_path} |
РеалистическоеВидение v5.1 | Realistic_Vision_V5.1_noVAE/ | ${diff_ckpt_path} |
Край ControlNet | sd-controlnet-canny/ | ${controlnet_edge_path} |
Глубина ControlNet | sd-controlnet-depth/ | ${controlnet_depth_path} |
ГлубинаЧто угодноV2 | depth_anything_v2_vitb.pth | ${depth_path} |
Измените ${stylized_G_ckpt_path}
используя пути контрольных точек, указанные в этой ссылке. Папка example
содержит несколько реальных голов в кодировке W+. Указание неверного пути к latent_list_path
приведет к стилизации synth_sample_num
синтетических семплов.
python infer_LD.py
--save_path "work_dirs/demo"
--G_ckpt_path ${G_ckpt_path}
--stylized_G_ckpt_path ${stylized_G_ckpt_path}
--latent_list_path "example"
--synth_sample_num 10
Измените prompt
и save_path
. Вы можете поиграть с другими гиперпараметрами в обучающем файле.
python train_LD.py
--prompt "Portrait of a werewolf"
--save_path "work_dirs/demo"
--diff_ckpt_path ${diff_ckpt_path}
--depth_path ${depth_path}
--G_ckpt_path ${G_ckpt_path}
--controlnet_edge_path ${controlnet_edge_path}
--controlnet_depth_path ${controlnet_depth_path}
@misc{bilecen2024identitypreserving3dhead,
title={Identity Preserving 3D Head Stylization with Multiview Score Distillation},
author={Bahri Batuhan Bilecen and Ahmet Berke Gokmen and Furkan Guzelant and Aysegul Dundar},
year={2024},
url={https://arxiv.org/abs/2411.13536},
}
Copyright 2024 Билкент ДЛР. Лицензия Apache версии 2.0 («Лицензия»).