CenterSnap下载 - CenterSnap源码下载

CenterSnap

Ai源码

1.0.0

下载

CenterSnap：单次多对象 3D 形状重建和分类 6D 姿势和尺寸估计

该存储库是我们论文的 pytorch 实现：

CenterSnap：单次多对象 3D 形状重建和分类 6D 姿势和尺寸估计
穆罕默德·祖拜尔·伊沙德、托马斯·科勒、迈克尔·拉斯基、凯文·斯通、兹索尔特·基拉
国际机器人与自动化会议 (ICRA)，2022 年

[项目页面] [arXiv] [PDF] [视频] [海报]

ECCV'22后续工作：

ShAPO：多对象形状、外观和姿势优化的隐式表示
穆罕默德·祖拜尔·伊沙德、谢尔盖·扎哈罗夫、拉雷斯·安布鲁斯、托马斯·科拉尔、兹索尔特·基拉、阿德里安·盖顿
欧洲计算机视觉会议 (ECCV)，2022 年

[项目页面] [arXiv] [PDF] [视频] [海报]

引文

如果您发现此存储库有用，请考虑引用：

 @inproceedings{irshad2022centersnap,
     title = {CenterSnap: Single-Shot Multi-Object 3D Shape Reconstruction and Categorical 6D Pose and Size Estimation},
     author = {Muhammad Zubair Irshad and Thomas Kollar and Michael Laskey and Kevin Stone and Zsolt Kira},
     journal = {IEEE International Conference on Robotics and Automation (ICRA)},
     year = {2022}
     }


@inproceedings{irshad2022shapo,
     title = {ShAPO: Implicit Representations for Multi-Object Shape Appearance and Pose Optimization},
     author = {Muhammad Zubair Irshad and Sergey Zakharov and Rares Ambrus and Thomas Kollar and Zsolt Kira and Adrien Gaidon},
     journal = {European Conference on Computer Vision (ECCV)},
     year = {2022}
     }

内容

环境
数据集（更新）
训练和推理
常见问题解答（已更新）
？后续作品（已更新）

环境

创建python 3.8虚拟环境并安装要求：

 cd $CenterSnap_Repo
conda create -y --prefix ./env python=3.8
conda activate ./env/
./env/bin/python -m pip install --upgrade pip
./env/bin/python -m pip install -r requirements.txt

根据您的 CUDA 版本安装torch==1.7.1 torchvision==0.8.2 。该代码是在cuda 10.2上构建和测试的。在 cuda 10.2 上安装 torch 的示例命令如下：

pip install torch==1.7.1 torchvision==0.8.2 torchaudio==0.7.2

数据集

新更新：如果您想在几个小时内从头开始收集自己的数据，请查看我们新的 ECCV'22 工作ShAPO的分布式脚本。该分布式脚本以CenterSnap所需的相同格式收集数据，尽管有一些细微的修改，如该存储库中提到的。

下载预处理数据集

我们建议下载预处理的数据集来训练和评估 CenterSnap 模型。下载并解压合成 (868GB) 和真实 (70GB) 数据集。这些文件包含复制我们的结果所需的所有培训和验证。

 cd $CenterSnap_REPO/data
wget https://tri-robotics-public.s3.amazonaws.com/centersnap/CAMERA.tar.gz
tar -xzvf CAMERA.tar.gz

wget https://tri-robotics-public.s3.amazonaws.com/centersnap/Real.tar.gz
tar -xzvf Real.tar.gz

数据目录结构应遵循：

 data
├── CAMERA
│   ├── train
│   └── val_subset
├── Real
│   ├── train
└── └── test

为了准备您自己的数据集，我们在prepare_data下提供了额外的脚本。

训练和推理

在 NOCS Synthetic 上训练（需要 13GB GPU 内存）：

./runner.sh net_train.py @configs/net_config.txt

注意runner.sh相当于使用python运行脚本。此外，它还会自动设置 PYTHONPATH 和 CenterSnap Enviornment Path。

在 NOCS Real Train 上进行微调（请注意，在 Real train 集上微调几个 epoch（即 1-5）后可以获得良好的结果）：

./runner.sh net_train.py @configs/net_config_real_resume.txt --checkpoint p ath t o b est c heckpoint

NOCS 真实测试子集的推断

从 [此处] 下载一个小的 NOCS Real 子集

./runner.sh inference/inference_real.py @configs/net_config.txt --data_dir path_to_nocs_test_subset --checkpoint checkpoint_path_here

您应该看到保存在results/CenterSnap中的可视化效果。更改 *config.txt 中的 --ouput_path 将它们保存到不同的文件夹

可选（形状自动编码器预训练）

我们为形状自动编码器提供预训练模型，用于数据收集和推理。尽管我们的代码库不需要单独训练形状自动编码器，但如果您愿意，我们可以在external/shape_pretraining下提供其他脚本

常问问题

1.我在自定义相机图像（即 Realsense、OAK-D 或其他图像）上没有获得良好的性能。

答：由于网络仅根据现实世界的 NOCS 数据进行了微调，目前预训练的网络可以为以下摄像机设置提供良好的 3D 预测。为了对您自己的相机参数进行良好的预测，请确保在对合成数据集进行预训练后使用您自己的小子集对网络进行微调。我们在这里提供数据准备脚本。

2.如何在HSR机器人相机上产生良好的零镜头结果：

答：请参阅上面常见问题 1 的答案以获得最佳结果。我们在 HSR 机器人上进行快速演示时采用的另一种解决方案是扭曲 HSR 机器人摄像头或任何其他自定义摄像头发出的 RGB-D 观测结果，使其与 NOCS 真实摄像头的内在特征相匹配（我们对模型进行了微调）在）。这样，只需在 NOCS 真实数据集上进行微调即可获得不错的结果。请参阅此答案和相应的代码要点。

3.运行 colab 时，我no cuda GPUs available 。

Ans：请务必按照以下说明在 Colab 中激活 GPU：

 Make sure that you have enabled the GPU under Runtime-> Change runtime type!

4.我收到raise RuntimeError('received %d items of ancdata' % RuntimeError: received 0 items of ancdata

Ans：通过uimit -n 2048将 ulimit 增加到 2048 或 8096

5.我收到RuntimeError: CUDA error: no kernel image is available for execution on the device或You requested GPUs: [0] But your machine only has: []

Ans：检查你的 pytorch 安装和 cuda 安装。请尝试以下操作：

安装cuda 10.2并在requirements.txt中运行相同的脚本
安装相关的pytorch cuda版本，即更改requirements.txt中的这一行

 torch==1.7.1
torchvision==0.8.2

6.我在wandb中看到零值指标

答：确保设置指标阈值。由于 pytorch Lightning 的第一个验证检查指标很高，因此似乎所有其他指标都为零。请手动设置阈值以删除 wandb 中的异常值指标以查看实际指标。

后续工作

我们的后续ECCV工作：
- ShAPO：多对象形状外观和姿势优化的隐式表示，ECCV，2022
其他后续作品（向作者的出色工作致敬）：
- 铰接对象：CARTO：铰接对象的类别和联合不可知重建，CVPR，2023
- 抓取：实时同时多对象 3D 形状重建、6DoF 姿态估计和密集抓取预测
- 更多抓取 + 真实世界实验：CenterGrasp：用于同时形状重建和 6-DoF 抓取估计的对象感知隐式表示学习