Téléchargement CenterSnap - Téléchargement du code source CenterSnap

CenterSnap

Code Source AI

1.0.0

Télécharger

CenterSnap : Reconstruction de forme 3D multi-objets en une seule prise et estimation catégorique de la pose et de la taille en 6D

Ce référentiel est l'implémentation pytorch de notre article :

CenterSnap : Reconstruction de forme 3D multi-objets en une seule prise et estimation catégorique de la pose et de la taille en 6D
Muhammad Zubair Irshad , Thomas Kollar, Michael Laskey, Kevin Stone, Zsolt Kira
Conférence internationale sur la robotique et l'automatisation (ICRA), 2022

[Page du projet] [arXiv] [PDF] [Vidéo] [Affiche]

Travaux de suivi de l'ECCV'22 :

ShAPO : représentations implicites pour l'optimisation de la forme, de l'apparence et de la pose de plusieurs objets
Muhammad Zubair Irshad , Sergey Zakharov, Rares Ambrus, Thomas Kollar, Zsolt Kira, Adrien Gaidon
Conférence européenne sur la vision par ordinateur (ECCV), 2022

[Page du projet] [arXiv] [PDF] [Vidéo] [Affiche]

Citation

Si vous trouvez ce référentiel utile, pensez à citer :

 @inproceedings{irshad2022centersnap,
     title = {CenterSnap: Single-Shot Multi-Object 3D Shape Reconstruction and Categorical 6D Pose and Size Estimation},
     author = {Muhammad Zubair Irshad and Thomas Kollar and Michael Laskey and Kevin Stone and Zsolt Kira},
     journal = {IEEE International Conference on Robotics and Automation (ICRA)},
     year = {2022}
     }


@inproceedings{irshad2022shapo,
     title = {ShAPO: Implicit Representations for Multi-Object Shape Appearance and Pose Optimization},
     author = {Muhammad Zubair Irshad and Sergey Zakharov and Rares Ambrus and Thomas Kollar and Zsolt Kira and Adrien Gaidon},
     journal = {European Conference on Computer Vision (ECCV)},
     year = {2022}
     }

Contenu

Environnement
Ensemble de données ( mis à jour )
Formation et inférence
FAQ ( mise à jour )
? Travaux de suivi ( Mise à jour )

Environnement

Créez un environnement virtuel Python 3.8 et installez les exigences :

 cd $CenterSnap_Repo
conda create -y --prefix ./env python=3.8
conda activate ./env/
./env/bin/python -m pip install --upgrade pip
./env/bin/python -m pip install -r requirements.txt

Installez torch==1.7.1 torchvision==0.8.2 en fonction de votre version CUDA. Le code a été construit et testé sur cuda 10.2 . Un exemple de commande pour installer Torch sur cuda 10.2 est le suivant :

pip install torch==1.7.1 torchvision==0.8.2 torchaudio==0.7.2

Ensemble de données

Nouvelle mise à jour : veuillez consulter le script distribué de notre nouveau travail ECCV'22 ShAPO si vous souhaitez collecter vos propres données à partir de zéro en quelques heures. Ce script distribué collecte les données dans le même format que celui requis par CenterSnap , bien qu'avec quelques modifications mineures comme mentionné dans ce dépôt.

Télécharger l'ensemble de données prétraitées

Nous vous recommandons de télécharger l'ensemble de données prétraité pour entraîner et évaluer le modèle CenterSnap. Téléchargez et décompressez les ensembles de données synthétiques (868 Go) et réels (70 Go). Ces fichiers contiennent toute la formation et la validation dont vous avez besoin pour reproduire nos résultats.

 cd $CenterSnap_REPO/data
wget https://tri-robotics-public.s3.amazonaws.com/centersnap/CAMERA.tar.gz
tar -xzvf CAMERA.tar.gz

wget https://tri-robotics-public.s3.amazonaws.com/centersnap/Real.tar.gz
tar -xzvf Real.tar.gz

La structure du répertoire de données doit suivre :

 data
├── CAMERA
│   ├── train
│   └── val_subset
├── Real
│   ├── train
└── └── test

Pour préparer votre propre ensemble de données, nous fournissons des scripts supplémentaires sous prepare_data.

Formation et inférence

Entraînez-vous sur NOCS Synthetic (nécessite 13 Go de mémoire GPU) :

./runner.sh net_train.py @configs/net_config.txt

Notez que runner.sh équivaut à utiliser python pour exécuter le script. De plus, il configure automatiquement le chemin d'accès à l'environnement PYTHONPATH et CenterSnap.

Affinement sur le train réel NOCS (notez que de bons résultats peuvent être obtenus après un réglage fin sur le train réel pendant seulement quelques époques, c'est-à-dire 1 à 5) :

./runner.sh net_train.py @configs/net_config_real_resume.txt --checkpoint p ath t o b est c heckpoint

Inférence sur un sous-ensemble de test réel NOCS

Téléchargez un petit sous-ensemble NOCS Real à partir de [ici]

./runner.sh inference/inference_real.py @configs/net_config.txt --data_dir path_to_nocs_test_subset --checkpoint checkpoint_path_here

Vous devriez voir les visualisations enregistrées dans results/CenterSnap . Modifiez le --ouput_path dans *config.txt pour les enregistrer dans un autre dossier

Facultatif (pré-formation sur Shape Auto-Encoder)

Nous fournissons un modèle pré-entraîné pour l'encodeur automatique de forme à utiliser pour la collecte et l'inférence de données. Bien que notre base de code ne nécessite pas de formation séparée de l'encodeur automatique de forme, si vous souhaitez le faire, nous fournissons des scripts supplémentaires sous external/shape_pretraining.

FAQ

1. Je n'obtiens pas de bonnes performances sur les images de ma caméra personnalisée, c'est-à-dire Realsense, OAK-D ou autres.

Réponse : Étant donné que le réseau a été affiné uniquement sur les données NOCS du monde réel, le réseau pré-entraîné donne actuellement une bonne prédiction 3D pour les paramètres de caméra suivants. Pour obtenir une bonne prédiction sur les paramètres de votre propre caméra, assurez-vous d'affiner le réseau avec votre propre petit sous-ensemble après un pré-entraînement sur l'ensemble de données synthétiques. Nous fournissons ici des scripts de préparation de données.

2. Comment générer de bons résultats de tir zéro sur la caméra du robot HSR :

Réponse : Veuillez consulter la réponse à la FAQ 1 ci-dessus pour de meilleurs résultats. Une solution alternative que nous avons utilisée pour faire une démonstration rapide sur le robot HSR consiste à déformer les observations RVB-D sortant de la caméra du robot HSR ou de toute autre caméra personnalisée de manière à ce qu'elles correspondent aux caractéristiques intrinsèques de la caméra réelle NOCS (que nous affinons notre modèle). sur). De cette façon, on peut obtenir des résultats décents avec uniquement un réglage fin de l'ensemble de données réel NOCS. Veuillez consulter cette réponse et l'essentiel correspondant ici pour le code.

3. Je ne reçois no cuda GPUs available lors de l'exécution de Colab.

Réponse : Assurez-vous de suivre ces instructions pour activer les GPU dans Colab :

 Make sure that you have enabled the GPU under Runtime-> Change runtime type!

4. Je reçois raise RuntimeError('received %d items of ancdata' % RuntimeError: received 0 items of ancdata

Réponse : augmentez ulimit à 2048 ou 8096 via uimit -n 2048

5. J'obtiens RuntimeError: CUDA error: no kernel image is available for execution on the device ou You requested GPUs: [0] But your machine only has: []

Réponse : Vérifiez votre installation de pytorch avec votre installation de cuda. Essayez ce qui suit :

Installer cuda 10.2 et exécuter le même script dans Requirements.txt
Installer la version appropriée de pytorch cuda, c'est-à-dire changer cette ligne dans le fichier Requirements.txt

 torch==1.7.1
torchvision==0.8.2

6. Je vois des métriques nulles dans wandb

Réponse : Assurez-vous de définir un seuil pour les métriques. Étant donné que la première métrique de contrôle de validation de pytorch Lightning est élevée, il semble que toutes les autres métriques soient nulles. Veuillez définir un seuil manuellement pour supprimer la métrique aberrante dans wandb afin de voir les métriques réelles.

Travaux de suivi

Nos travaux de suivi ECCV :
- ShAPO : Représentations implicites pour l'apparence de la forme de plusieurs objets et l'optimisation de la pose, ECCV, 2022
Autres travaux de suivi (Merci aux auteurs pour leur excellent travail) :
- Objets articulés : CARTO : Catégorie et reconstruction agnostique conjointe d'objets ARTiculés, CVPR, 2023
- Saisir : reconstruction simultanée de formes 3D multi-objets en temps réel, estimation de pose 6DoF et prédiction de saisie dense
- Plus de saisie + expériences du monde réel : CenterGrasp : apprentissage de représentation implicite sensible aux objets pour la reconstruction de forme simultanée et l'estimation de la saisie à 6 degrés de liberté