バーリ・バトゥハン・ビレセン、アーメット・ベルケ・ゴクメン、フルカン・グゼルント、アイセグル・ダンダル
3D 頭部の様式化により、リアルな顔の特徴が芸術的な表現に変換され、ゲームや仮想現実アプリケーション全体でのユーザー エンゲージメントが強化されます。 3D 対応のジェネレーターは大幅な進歩を遂げていますが、多くの 3D 様式化手法は主に正面に近いビューを提供し、元の被写体の固有のアイデンティティを維持するのに苦労しており、多様性や個性に欠けた出力が得られることがよくあります。このペーパーでは、PanoHead モデルを活用し、包括的な 360 度の視点から画像を合成することで、これらの課題に対処します。我々は、負の対数尤度蒸留 (LD) を使用して同一性の保持を強化し、様式化の品質を向上させる新しいフレームワークを提案します。マルチビュー グリッド スコアとミラー グラディエントを 3D GAN アーキテクチャ内に統合し、スコア ランク重み付け手法を導入することにより、私たちのアプローチは大幅な質的および量的な改善を達成します。私たちの発見は、3D 頭部の様式化の現状を前進させるだけでなく、アイデンティティの保存という重要な問題に焦点を当て、拡散モデルと GAN の間の効果的な蒸留プロセスに関する貴重な洞察を提供します。
git clone --recursive https://github.com/three-bee/3d_head_stylization.git
cd ./3d_head_stylization && pip install -r requirements.txt
ポーズ抽出と顔の位置合わせについては、PanoHead のアプローチに従います。このためには、PanoHead のセットアップ手順に従い、3DDFA_V2 のセットアップをスキップしないようにする必要があります。次に、 PanoHead/projector.py
を実行し、 project_pti
ステージを省略して、W+ エンコードのみを実行します。
便宜上、 example
フォルダーにいくつかの現実世界のアイデンティティの W+ 潜在を提供します。
すべてのネットワークを希望の場所にダウンロードします。このリンクでは、いくつかのプロンプトの様式化されたジェネレーター チェックポイントも提供しています。
ネットワーク | ファイル名 | 位置 |
---|---|---|
パノヘッド | easy-khair-180-gpc0.8-trans10-025000.pkl | ${G_ckpt_path} |
リアリスティックビジョン v5.1 | Realistic_Vision_V5.1_noVAE/ | ${diff_ckpt_path} |
ControlNet エッジ | sd-controlnet-canny/ | ${controlnet_edge_path} |
ControlNet の深さ | sd-controlnet-depth/ | ${controlnet_depth_path} |
深さ何でもV2 | depth_anything_v2_vitb.pth | ${depth_path} |
${stylized_G_ckpt_path}
を、このリンクで指定されているチェックポイント パスに変更します。 example
フォルダーには、実際の W+ エンコードされたヘッドがいくつか含まれています。 latent_list_path
に無効なパスを指定すると、合成サンプルのsynth_sample_num
スタイル化されます。
python infer_LD.py
--save_path "work_dirs/demo"
--G_ckpt_path ${G_ckpt_path}
--stylized_G_ckpt_path ${stylized_G_ckpt_path}
--latent_list_path "example"
--synth_sample_num 10
prompt
とsave_path
変更します。トレーニング ファイル内の他のハイパーパラメータを操作することもできます。
python train_LD.py
--prompt "Portrait of a werewolf"
--save_path "work_dirs/demo"
--diff_ckpt_path ${diff_ckpt_path}
--depth_path ${depth_path}
--G_ckpt_path ${G_ckpt_path}
--controlnet_edge_path ${controlnet_edge_path}
--controlnet_depth_path ${controlnet_depth_path}
@misc{bilecen2024identitypreserving3dhead,
title={Identity Preserving 3D Head Stylization with Multiview Score Distillation},
author={Bahri Batuhan Bilecen and Ahmet Berke Gokmen and Furkan Guzelant and Aysegul Dundar},
year={2024},
url={https://arxiv.org/abs/2411.13536},
}
著作権 2024 ビルケント DLR。 Apache License バージョン 2.0 (「ライセンス」) に基づいてライセンスされています。