Bahri Batuhan Bilecen, Ahmet Berke Gokmen, Furkan Guzelant und Aysegul Dundar
Durch die 3D-Kopfstilisierung werden realistische Gesichtszüge in künstlerische Darstellungen umgewandelt und so die Benutzereinbindung bei Spielen und Virtual-Reality-Anwendungen verbessert. Während 3D-fähige Generatoren erhebliche Fortschritte gemacht haben, bieten viele 3D-Stilisierungsmethoden in erster Linie nahezu frontale Ansichten und haben Schwierigkeiten, die einzigartige Identität der ursprünglichen Motive zu bewahren, was häufig zu Ergebnissen führt, denen es an Vielfalt und Individualität mangelt. Dieser Artikel befasst sich mit diesen Herausforderungen, indem er das PanoHead-Modell nutzt und Bilder aus einer umfassenden 360-Grad-Perspektive synthetisiert. Wir schlagen ein neuartiges Framework vor, das die negative Log-Likelihood-Destillation (LD) nutzt, um den Identitätserhalt zu verbessern und die Stilisierungsqualität zu verbessern. Durch die Integration von Multi-View-Raster-Score und Spiegelgradienten in die 3D-GAN-Architektur und die Einführung einer Score-Rang-Gewichtungstechnik erzielt unser Ansatz erhebliche qualitative und quantitative Verbesserungen. Unsere Ergebnisse bringen nicht nur den Stand der 3D-Kopfstilisierung voran, sondern liefern auch wertvolle Einblicke in effektive Destillationsprozesse zwischen Diffusionsmodellen und GANs und konzentrieren sich dabei auf das entscheidende Thema der Identitätserhaltung.
git clone --recursive https://github.com/three-bee/3d_head_stylization.git
cd ./3d_head_stylization && pip install -r requirements.txt
Wir folgen dem Ansatz von PanoHead zur Posenextraktion und Gesichtsausrichtung. Dazu müssen Sie die Einrichtungsprozedur von PanoHead befolgen und sicherstellen, dass Sie die Einrichtung von 3DDFA_V2 nicht überspringen . Führen Sie dann PanoHead/projector.py
aus und lassen Sie die project_pti
Phase weg, um nur die W+-Kodierung durchzuführen.
Für Ihre Bequemlichkeit stellen wir W+-Latentate mehrerer realer Identitäten in example
bereit.
Laden Sie alle Netzwerke an die gewünschten Orte herunter. Unter diesem Link stellen wir auch stilisierte Generatorprüfpunkte für mehrere Eingabeaufforderungen bereit.
Netzwerk | Dateiname | Standort |
---|---|---|
PanoHead | easy-khair-180-gpc0.8-trans10-025000.pkl | ${G_ckpt_path} |
RealisticVision v5.1 | Realistic_Vision_V5.1_noVAE/ | ${diff_ckpt_path} |
ControlNet-Kante | sd-controlnet-canny/ | ${controlnet_edge_path} |
ControlNet-Tiefe | sd-controlnet-depth/ | ${controlnet_depth_path} |
DepthAnythingV2 | depth_anything_v2_vitb.pth | ${depth_path} |
Ändern Sie ${stylized_G_ckpt_path}
mit den in diesem Link angegebenen Prüfpunktpfaden. Der example
enthält mehrere reale W+-codierte Köpfe. Wenn Sie latent_list_path
einen ungültigen Pfad angeben, wird synth_sample_num
synthetischer Samples stilisiert.
python infer_LD.py
--save_path "work_dirs/demo"
--G_ckpt_path ${G_ckpt_path}
--stylized_G_ckpt_path ${stylized_G_ckpt_path}
--latent_list_path "example"
--synth_sample_num 10
prompt
und save_path
ändern. Sie können mit anderen Hyperparametern in der Trainingsdatei spielen.
python train_LD.py
--prompt "Portrait of a werewolf"
--save_path "work_dirs/demo"
--diff_ckpt_path ${diff_ckpt_path}
--depth_path ${depth_path}
--G_ckpt_path ${G_ckpt_path}
--controlnet_edge_path ${controlnet_edge_path}
--controlnet_depth_path ${controlnet_depth_path}
@misc{bilecen2024identitypreserving3dhead,
title={Identity Preserving 3D Head Stylization with Multiview Score Distillation},
author={Bahri Batuhan Bilecen and Ahmet Berke Gokmen and Furkan Guzelant and Aysegul Dundar},
year={2024},
url={https://arxiv.org/abs/2411.13536},
}
Copyright 2024 Bilkent DLR. Lizenziert unter der Apache-Lizenz, Version 2.0 (die „Lizenz“).