IT3D text to 3D - IT3D text to 3D

IT3D text to 3D

Autre code source

1.0.0

Télécharger

Dépôt officiel pour IT3D (AAAI 2024)

IT3D : génération de texte en 3D améliorée avec synthèse de vue explicite (AAAI 2024) .

Yiwen Chen, Chi Zhang, Xiaofeng Yang, Zhongang Cai, Gang Yu, Lei Yang, Guosheng Lin

Arxiv

Abstrait

Les progrès récents dans les techniques de conversion texte-3D ont été propulsés par la distillation des connaissances issues de puissants grands modèles de diffusion texte-image (MLD). Néanmoins, les approches Text-to-3D existantes sont souvent confrontées à des défis tels qu'une sursaturation, des détails inadéquats et des résultats irréalistes. Cette étude présente une nouvelle stratégie qui exploite des images multi-vues explicitement synthétisées pour résoudre ces problèmes. Notre approche implique l'utilisation de pipelines image à image, optimisés par les LDM, pour générer des images posées de haute qualité basées sur les rendus de modèles 3D grossiers. Bien que les images générées atténuent pour l’essentiel les problèmes susmentionnés, des problèmes tels que l’incohérence des vues et la variance significative du contenu persistent en raison de la nature générative inhérente aux modèles de grande diffusion, ce qui pose d’importantes difficultés pour exploiter efficacement ces images. Pour surmonter cet obstacle, nous préconisons l'intégration d'un discriminateur aux côtés d'une nouvelle stratégie de double formation Diffusion-GAN pour guider la formation des modèles 3D. Pour le discriminateur incorporé, les images multi-vues synthétisées sont considérées comme des données réelles, tandis que les rendus des modèles 3D optimisés fonctionnent comme de fausses données. Nous menons un ensemble complet d'expériences qui démontrent l'efficacité de notre méthode par rapport aux approches de base.

IT3D_demo.mp4

Démos

Plus de vidéos

Gauche : Modèle grossier (référence). À droite : modèle raffiné (le nôtre). Nom du fichier : Invite

un.bouquet.de.jasmin.blanc.mp4

Modèle.3D.de.Deadpool.mp4

un.bouquet.de.chrysanthème.jaune.mp4

Modèle.3D.de.Darth.Vader.mp4

hulk.mp4

un.bouquet.de.chrysanthème.rose.mp4

modèle.3D.de.batman.mp4

un.modèle.3D.d'un.iron.man.mp4

un.bouquet.de.rose.jaune.mp4

un.buste.en.marbre.de.Thanos.mp4

une.assiette.de.brocoli.frais.mp4

modèle.3D.de.red.hulk.mp4

Installer

git clone https://github.com/buaacyw/IT3D-text-to-3D.git
cd IT3D-text-to-3D
conda create -n it3d python==3.8
conda activate it3d
pip install -r requirements.txt
pip install ./raymarching
pip install ./shencoder
pip install ./freqencoder
pip install ./gridencoder

Connexion

Vous devez créer un compte wandb si vous n’en avez pas.

wandb login

Télécharger des modèles image à image (facultatif)

Pour le pipeline image à image, nous avons implémenté Stadiffusion Image2Image et ControlNetv1.1.

Dans notre expérience, Controlnet fournit toujours de meilleurs résultats. Si vous souhaitez utiliser Controlnet comme pipeline image à image, vous devez télécharger les modèles à partir d'ici en suivant les instructions de ControlNetv1.1.

Par exemple, si vous souhaitez utiliser Controlnet conditionné sur softedge, vous devez télécharger control_v11p_sd15_softedge.yaml et control_v11p_sd15_softedge.pth et les placer dans le dossier ctn_models . De plus, vous devez télécharger le modèle Stable Diffusion 1.5 v1-5-pruned.ckpt et le placer dans le dossier ctn_models .

Environnements testés

Ubuntu 22 avec torch 2.0.1 et CUDA 11.7 sur un A6000.

Conseils pour le MOO

Toutes nos démos (modèles grossiers et modèles fins) sont formées en résolution 512. En résolution 512, il faut environ 30G pour entraîner un modèle grossier (vanilla Stable Dreamfusion) et 35G pour l'affiner avec IT3D. Vous pouvez réduire la consommation de mémoire en :

Réduisez la résolution d’entraînement en définissant --h et --w . Même si cela réduira considérablement l’utilisation de la mémoire, cela entraînera également une diminution substantielle des performances. Il faut environ 10G pour IT3D en résolution 64.
Utilisez NeRF léger en définissant --nerf l1 . Notre paramètre par défaut est --nerf l2 .
Réduisez les pas d'échantillonnage par rayon en définissant --max_steps . Notre paramètre par défaut est --max_steps 384
Si vous utilisez un MOO pendant la génération de données Controlnet, réduisez --ctn_sample_batch_size .

Conseils pour les performances

Modifiez l'invite et la graine en définissant --text et --seed . Malheureusement, la formation d'un modèle grossier exempt du problème Janus nécessite souvent plusieurs tentatives.
Rendu de NeRF en tant que fonctionnalité latente au début de la formation grossière du modèle en définissant --latent_iter_ratio 0.1 .
Modifiez la perte de discrimination --g_loss_weight . Vous devez réduire --g_loss_weight lorsque l'ensemble de données généré est trop varié. Vous pouvez agrandir --g_loss_weight pour un ensemble de données de haute qualité.
Régler le GAN plus longtemps augmentera la qualité. Modifiez --g_loss_decay_begin_step et --g_loss_decay_step . Dans notre paramètre par défaut, nous ajustons le GAN sur 7 500 étapes, puis nous le supprimons.

Télécharger les points de contrôle du modèle grossier

Nous publions nos points de contrôle de modèle grossier. Décompressez dans le dossier ckpts . Tous ces points de contrôle sont entraînés dans notre paramètre de modèle grossier par défaut.

Usage

Sur notre A6000, il faut respectivement 6 minutes pour générer un ensemble de données de 640 images en utilisant SD-I2I et 25 minutes en utilisant Controlnet.

 # # Refine a coarse NeRF
# --no_cam_D: camera free discriminator, camera pose won't be input to discriminator
# --g_loss_decay_begin_step: when to decay the weight of discrimination loss
# --real_save_path: path to generated dataset

# Jasmine
python main.py -O --text " a bunch of white jasmine " --workspace jas_ctn --ckpt ckpts/jas_df_ep0200.pth --no_cam_D --gan --ctn --g_loss_decay_begin_step 25000 --real_save_path generated_dataset/jas_ctn

# Use stable diffusion img2img pipeline instead of Controlnet
python main.py -O --text " a bunch of white jasmine " --workspace jas_sd --ckpt ckpts/jas_df_ep0200.pth --no_cam_D --gan  --g_loss_decay_begin_step 25000 --real_save_path generated_dataset/jas_sd

# Iron Man
python main.py -O --text " a 3D model of an iron man, highly detailed, full body " --workspace iron_ctn --ckpt ckpts/iron_man_df_ep0400.pth --no_cam_D --gan --ctn --g_loss_decay_begin_step 45000 --real_save_path generated_dataset/iron_ctn

# Darth Vader
python main.py -O --text " Full-body 3D model of Darth Vader, highly detailed " --workspace darth_ctn --ckpt ckpts/darth_df_ep0200.pth --no_cam_D --gan --ctn --g_loss_decay_begin_step 25000 --real_save_path generated_dataset/darth_ctn

# Hulk
python main.py -O --text " 3D model of hulk, highly detailed " --workspace hulk_ctn --ckpt ckpts/hulk_df_ep0200.pth --no_cam_D --gan --ctn  --g_loss_decay_begin_step 25000 --real_save_path generated_dataset/hulk_ctn

# Ablation Experiment in Paper
# Note: our default setting is sds loss + decayed gan loss. gan loss weight will be decayed to zero after 7500 steps (depending on g_loss_decay_begin_step)
# only l2 loss
python main.py -O --text " 3D model of hulk, highly detailed " --workspace hulk_ctn_l2 --ckpt ckpts/hulk_df_ep0200.pth --no_cam_D --gan --ctn --l2_weight 100.0 --l2_decay_begin_step 25000 --l2_decay_step 2500 --l2_weight_end 0.0 --sds_weight_end 0.0 --g_loss_decay_begin_step 0 --real_save_path generated_dataset/hulk_ctn

# l2 loss + sds loss
python main.py -O --text " 3D model of hulk, highly detailed " --workspace hulk_ctn_l2_sds --ckpt ckpts/hulk_df_ep0200.pth --no_cam_D --gan --ctn --l2_weight 100.0 --l2_decay_begin_step 25000 --l2_decay_step 2500 --l2_weight_end 0.0  --g_loss_decay_begin_step 0 --real_save_path generated_dataset/hulk_ctn

# only GAN
python main.py -O --text " 3D model of hulk, highly detailed " --workspace hulk_ctn_only_gan --ckpt ckpts/hulk_df_ep0200.pth --no_cam_D --gan --ctn --sds_weight_end 0.0 --real_save_path generated_dataset/hulk_ctn

# Edit to red Hulk, change --text
python main.py -O --text " a red hulk, red skin, highly detailed " --workspace hulk_red_ctn --ckpt ckpts/hulk_df_ep0200.pth --no_cam_D --gan --ctn  --g_loss_decay_begin_step 25000 --real_save_path generated_dataset/hulk_ctn

# # Generate Dataset and DMTET Mesh
# generate dataset
python main.py -O --text " a bunch of blue rose, highly detailed " --workspace rose_blue_ctn --ckpt ckpts/rose_df_ep0200.pth  --gan --ctn --no_cam_D --iters 0 --real_save_path generated_dataset/rose_blue_ctn 
# DMTET Mesh
python main.py -O --text " a bunch of blue rose, highly detailed " --workspace rose_blue_ctn_dm  --gan --ctn --no_cam_D  --g_loss_decay_begin_step 5000 --g_loss_decay_step 5000  --init_with ckpts/rose_df_ep0200.pth --dmtet --init_color --real_save_path generated_dataset/rose_blue_ctn


# # Train your own coarse NeRF
python main.py -O --text " a bunch of white jasmine " --workspace jas
# Refine it
python main.py -O --text " a bunch of white jasmine " --workspace jas_ctn --ckpt jas/checkpoints/df_ep0200.pth --no_cam_D --gan --ctn --g_loss_decay_begin_step 25000 --real_save_path generated_dataset/jas_ctn

Hyperparamètres possibles que vous devez modifier :

--real_overwrite : ouvrez-le pour écraser le répertoire réel du jeu de données
--per_view_gt : combien d'images seront générées pour chaque vue de caméra. Par défaut : 5
--img2img_view_num : combien de vues de caméra pour la génération img2img. Par défaut : 64.
--gan : Incorporation du discriminateur (IT3D)
--ctn : Utilisation de la condition ControlNet sur softedge. Si faux, le pipeline StableDiffusion Image-to-Image sera utilisé. SD I2I est beaucoup plus rapide mais avec une qualité inférieure.
--profondeur : Controlnet conditionné en profondeur
--noraml : Controlnet conditionné normalement
--force : force du conditionnement Controlnet
--init_color : indique si la couleur du DMTET est initialisée. Parfois, vous devez ouvrir cette option pour éviter ce bug.

Reconnaissance

Notre code est basé sur ces merveilleux dépôts :

Stable-Dreamfusion

 @misc{stable-dreamfusion,
    Author = {Jiaxiang Tang},
    Year = {2022},
    Note = {https://github.com/ashawkey/stable-dreamfusion},
    Title = {Stable-dreamfusion: Text-to-3D with Stable-diffusion}
}

EG3D

 @inproceedings{Chan2022,
  author = {Eric R. Chan and Connor Z. Lin and Matthew A. Chan and Koki Nagano and Boxiao Pan and Shalini De Mello and Orazio         Gallo and Leonidas Guibas and Jonathan Tremblay and Sameh Khamis and Tero Karras and Gordon Wetzstein},
  title = {Efficient Geometry-aware {3D} Generative Adversarial Networks},
  booktitle = {CVPR},
  year = {2022}
}

Réseau de contrôle

 @misc{zhang2023adding,
  title={Adding Conditional Control to Text-to-Image Diffusion Models}, 
  author={Lvmin Zhang and Maneesh Agrawala},
  year={2023},
  eprint={2302.05543},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}

Citation

Si vous trouvez ce travail utile, une citation sera appréciée via :

  @misc{chen2023it3d,
        title={IT3D: Improved Text-to-3D Generation with Explicit View Synthesis}, 
        author={Yiwen Chen and Chi Zhang and Xiaofeng Yang and Zhongang Cai and Gang Yu and Lei Yang and Guosheng Lin},
        year={2023},
        eprint={2308.11473},
        archivePrefix={arXiv},
        primaryClass={cs.CV}
  }

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2024-12-01
taille 41.31MB
Provenant de Github

Applications connexes

How to download hydrax abyss.to

2024-11-11
Texte avec Jésus chinois

2023-08-23
Texte avec Jésus

2023-08-17
Texte Avec Jésus version chinoise

2023-08-17
Jeu UP To Sky 3D

2023-08-07
Envoyez un SMS ou mourez

2023-07-03

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
waymo open dataset

Autre code source

December 2023 Update
SmartTube

Autre code source

24.71 Stable
Sunamu

Autre code source

Release 2.2.0
waymo open dataset

Autre code source

December 2023 Update
wp functions

Autres catégories

1.0.0
termwind

Autres catégories

v2.3.0

Actualités connexes Tout