CenterSnap下載 - CenterSnap源碼下載

CenterSnap

Ai源碼

1.0.0

下載

CenterSnap：單次多物件 3D 形狀重建和分類 6D 姿勢和尺寸估計

該存儲庫是我們論文的 pytorch 實作：

CenterSnap：單次多物件 3D 形狀重建和分類 6D 姿勢和尺寸估計
穆罕默德祖拜爾伊沙德、湯瑪斯科勒、麥可拉斯基、凱文史東、茲索爾特基拉
國際機器人與自動化會議 (ICRA)，2022 年

[專案頁面] [arXiv] [PDF] [影片] [海報]

ECCV'22後續工作：

ShAPO：多物件形狀、外觀和姿勢優化的隱式表示
穆罕默德·祖拜爾·伊沙德、謝爾蓋·扎哈羅夫、拉雷斯·安布魯斯、托馬斯·科拉爾、茲索爾特·基拉、阿德里安·蓋頓
歐洲電腦視覺會議 (ECCV)，2022 年

[專案頁面] [arXiv] [PDF] [影片] [海報]

引文

如果您發現此存儲庫有用，請考慮引用：

 @inproceedings{irshad2022centersnap,
     title = {CenterSnap: Single-Shot Multi-Object 3D Shape Reconstruction and Categorical 6D Pose and Size Estimation},
     author = {Muhammad Zubair Irshad and Thomas Kollar and Michael Laskey and Kevin Stone and Zsolt Kira},
     journal = {IEEE International Conference on Robotics and Automation (ICRA)},
     year = {2022}
     }


@inproceedings{irshad2022shapo,
     title = {ShAPO: Implicit Representations for Multi-Object Shape Appearance and Pose Optimization},
     author = {Muhammad Zubair Irshad and Sergey Zakharov and Rares Ambrus and Thomas Kollar and Zsolt Kira and Adrien Gaidon},
     journal = {European Conference on Computer Vision (ECCV)},
     year = {2022}
     }

內容

環境
資料集（更新）
訓練和推理
常見問題（已更新）
？後續作品（已更新）

環境

建立python 3.8虛擬環境並安裝需求：

 cd $CenterSnap_Repo
conda create -y --prefix ./env python=3.8
conda activate ./env/
./env/bin/python -m pip install --upgrade pip
./env/bin/python -m pip install -r requirements.txt

根據您的 CUDA 版本安裝torch==1.7.1 torchvision==0.8.2 。該程式碼是在cuda 10.2上建置和測試的。在 cuda 10.2 上安裝 torch 的範例指令如下：

pip install torch==1.7.1 torchvision==0.8.2 torchaudio==0.7.2

數據集

新更新：如果您想在幾個小時內從頭開始收集自己的數據，請查看我們新的 ECCV'22 工作ShAPO的分散式腳本。這個分散式腳本以CenterSnap所需的相同格式收集數據，儘管有一些細微的修改，如該儲存庫中提到的。

下載預處理資料集

我們建議下載預處理的資料集來訓練和評估 CenterSnap 模型。下載並解壓縮合成 (868GB) 和真實 (70GB) 資料集。這些文件包含複製我們的結果所需的所有培訓和驗證。

 cd $CenterSnap_REPO/data
wget https://tri-robotics-public.s3.amazonaws.com/centersnap/CAMERA.tar.gz
tar -xzvf CAMERA.tar.gz

wget https://tri-robotics-public.s3.amazonaws.com/centersnap/Real.tar.gz
tar -xzvf Real.tar.gz

資料目錄結構應遵循：

 data
├── CAMERA
│   ├── train
│   └── val_subset
├── Real
│   ├── train
└── └── test

為了準備您自己的資料集，我們在prepare_data下提供了額外的腳本。

訓練和推理

在 NOCS Synthetic 上訓練（需要 13GB GPU 記憶體）：

./runner.sh net_train.py @configs/net_config.txt

注意runner.sh相當於使用python運行腳本。此外，它還會自動設定 PYTHONPATH 和 CenterSnap Enviornment Path。

在 NOCS Real Train 上進行微調（請注意，在 Real train 集上微調幾個 epoch（即 1-5）後可以獲得良好的結果）：

./runner.sh net_train.py @configs/net_config_real_resume.txt --checkpoint p ath t o b est c heckpoint

NOCS 真實測試子集的推斷

從 [此處] 下載一個小的 NOCS Real 子集

./runner.sh inference/inference_real.py @configs/net_config.txt --data_dir path_to_nocs_test_subset --checkpoint checkpoint_path_here

您應該會看到保存在results/CenterSnap中的視覺化效果。更改 *config.txt 中的 --ouput_path 將它們儲存到不同的資料夾

可選（形狀自動編碼器預訓練）

我們為形狀自動編碼器提供預訓練模型，用於資料收集和推理。儘管我們的程式碼庫不需要單獨訓練形狀自動編碼器，但如果您願意，我們可以在external/shape_pretraining下提供其他腳本

常問問題

1.我在自訂相機影像（即 Realsense、OAK-D 或其他影像）上沒有獲得良好的效能。

答：由於網路僅根據現實世界的 NOCS 資料進行了微調，目前預先訓練的網路可以為以下攝影機設定提供良好的 3D 預測。為了對您自己的相機參數進行良好的預測，請確保在對合成資料集進行預訓練後使用您自己的小子集對網路進行微調。我們在這裡提供資料準備腳本。

2.如何在HSR機器人相機上產生良好的零鏡頭結果：

答：請參閱上面常見問題 1 的答案以獲得最佳結果。我們在HSR 機器人上進行快速演示時採用的另一種解決方案是扭曲HSR 機器人相機或任何其他自訂相機發出的RGB-D 觀測結果，使其與NOCS 真實相機的內在特徵相匹配（我們對模型進行了微調）在）。這樣，只需在 NOCS 真實資料集上進行微調即可獲得不錯的結果。請參閱此答案和相應的程式碼要點。

3.運行 colab 時，我no cuda GPUs available 。

Ans：請務必按照以下說明在 Colab 中啟動 GPU：

 Make sure that you have enabled the GPU under Runtime-> Change runtime type!

4.我收到raise RuntimeError('received %d items of ancdata' % RuntimeError: received 0 items of ancdata

Ans：透過uimit -n 2048將 ulimit 增加到 2048 或 8096

5.我收到RuntimeError: CUDA error: no kernel image is available for execution on the device或You requested GPUs: [0] But your machine only has: []

Ans：檢查你的 pytorch 安裝和 cuda 安裝。請嘗試以下操作：

安裝cuda 10.2並在requirements.txt中執行相同的腳本
安裝相關的pytorch cuda版本，即更改requirements.txt中的這一行

 torch==1.7.1
torchvision==0.8.2

6.我在wandb看到零值指標

答：確保設定指標閾值。由於 pytorch Lightning 的第一個驗證檢查指標很高，因此似乎所有其他指標都為零。請手動設定閾值以刪除 wandb 中的異常值指標以查看實際指標。

後續工作

我們的後續ECCV工作：
- ShAPO：多物件形狀外觀和姿勢優化的隱式表示，ECCV，2022
其他後續作品（向作者的出色工作致敬）：
- 鉸接對象：CARTO：鉸接對象的類別和聯合不可知重建，CVPR，2023
- 抓取：即時同時多物件 3D 形狀重建、6DoF 姿勢估計與密集抓取預測
- 更多抓取 + 真實世界實驗：CenterGrasp：用於同時形狀重建和 6-DoF 抓取估計的物件感知隱式表示學習