Download CenterSnap - Download do código-fonte CenterSnap

CenterSnap

Código-Fonte de IA

1.0.0

Baixar

CenterSnap: reconstrução de forma 3D multiobjeto de disparo único e estimativa categórica de pose e tamanho 6D

Este repositório é a implementação pytorch do nosso artigo:

CenterSnap: reconstrução de forma 3D multiobjeto de disparo único e estimativa categórica de pose e tamanho 6D
Muhammad Zubair Irshad , Thomas Kollar, Michael Laskey, Kevin Stone, Zsolt Kira
Conferência Internacional sobre Robótica e Automação (ICRA), 2022

[Página do projeto] [arXiv] [PDF] [Vídeo] [Pôster]

Trabalho de acompanhamento do ECCV'22:

ShAPO: representações implícitas para otimização de formato, aparência e pose de vários objetos
Muhammad Zubair Irshad , Sergey Zakharov, Rares Ambrus, Thomas Kollar, Zsolt Kira, Adrien Gaidon
Conferência Europeia sobre Visão Computacional (ECCV), 2022

[Página do projeto] [arXiv] [PDF] [Vídeo] [Pôster]

Citação

Se você achar este repositório útil, considere citar:

 @inproceedings{irshad2022centersnap,
     title = {CenterSnap: Single-Shot Multi-Object 3D Shape Reconstruction and Categorical 6D Pose and Size Estimation},
     author = {Muhammad Zubair Irshad and Thomas Kollar and Michael Laskey and Kevin Stone and Zsolt Kira},
     journal = {IEEE International Conference on Robotics and Automation (ICRA)},
     year = {2022}
     }


@inproceedings{irshad2022shapo,
     title = {ShAPO: Implicit Representations for Multi-Object Shape Appearance and Pose Optimization},
     author = {Muhammad Zubair Irshad and Sergey Zakharov and Rares Ambrus and Thomas Kollar and Zsolt Kira and Adrien Gaidon},
     journal = {European Conference on Computer Vision (ECCV)},
     year = {2022}
     }

Conteúdo

Ambiente
Conjunto de dados ( atualizado )
Treinamento e Inferência
Perguntas frequentes ( atualizadas )
? Trabalhos de acompanhamento ( atualizado )

Ambiente

Crie um ambiente virtual python 3.8 e instale os requisitos:

 cd $CenterSnap_Repo
conda create -y --prefix ./env python=3.8
conda activate ./env/
./env/bin/python -m pip install --upgrade pip
./env/bin/python -m pip install -r requirements.txt

Instale torch==1.7.1 torchvision==0.8.2 com base na sua versão CUDA. O código foi construído e testado em cuda 10.2 . Um exemplo de comando para instalar o torch no cuda 10.2 é o seguinte:

pip install torch==1.7.1 torchvision==0.8.2 torchaudio==0.7.2

Conjunto de dados

Nova atualização : verifique o script distribuído de nosso novo ShAPO de trabalho ECCV'22 se desejar coletar seus próprios dados do zero em algumas horas. Esse script distribuído coleta os dados no mesmo formato exigido pelo CenterSnap , embora com algumas pequenas modificações mencionadas naquele repositório.

Baixe o conjunto de dados pré-processado

Recomendamos baixar o conjunto de dados pré-processado para treinar e avaliar o modelo CenterSnap. Baixe e descompacte conjuntos de dados sintéticos (868 GB) e reais (70 GB). Esses arquivos contêm todo o treinamento e validação necessários para replicar nossos resultados.

 cd $CenterSnap_REPO/data
wget https://tri-robotics-public.s3.amazonaws.com/centersnap/CAMERA.tar.gz
tar -xzvf CAMERA.tar.gz

wget https://tri-robotics-public.s3.amazonaws.com/centersnap/Real.tar.gz
tar -xzvf Real.tar.gz

A estrutura do diretório de dados deve seguir:

 data
├── CAMERA
│   ├── train
│   └── val_subset
├── Real
│   ├── train
└── └── test

Para preparar seu próprio conjunto de dados, fornecemos scripts adicionais em prepare_data.

Treinamento e Inferência

Treine em NOCS Synthetic (requer 13 GB de memória GPU):

./runner.sh net_train.py @configs/net_config.txt

Observe que runner.sh é equivalente a usar python para executar o script. Além disso, ele configura o PYTHONPATH e o CenterSnap Enviornment Path automaticamente.

Ajuste fino no trem real NOCS (observe que bons resultados podem ser obtidos após o ajuste fino no trem real definido por apenas algumas épocas, ou seja, 1-5):

./runner.sh net_train.py @configs/net_config_real_resume.txt --checkpoint p ath t o b est c heckpoint

Inferência em um subconjunto de teste real NOCS

Baixe um pequeno subconjunto NOCS Real em [aqui]

./runner.sh inference/inference_real.py @configs/net_config.txt --data_dir path_to_nocs_test_subset --checkpoint checkpoint_path_here

Você deverá ver as visualizações salvas em results/CenterSnap . Altere --ouput_path em *config.txt para salvá-los em uma pasta diferente

Opcional (pré-treinamento do codificador automático de forma)

Fornecemos um modelo pré-treinado para codificador automático de forma a ser usado para coleta e inferência de dados. Embora nossa base de código não exija o treinamento separado do codificador automático de formas, se você desejar fazer isso, fornecemos scripts adicionais em external/shape_pretraining

Perguntas frequentes

1. Não estou obtendo um bom desempenho em minhas imagens de câmera personalizadas, ou seja, Realsense, OAK-D ou outras.

Resposta: Como a rede foi ajustada apenas com dados NOCS do mundo real, atualmente a rede pré-treinada oferece uma boa previsão 3D para a seguinte configuração de câmera. Para obter uma boa previsão dos parâmetros de sua própria câmera, certifique-se de ajustar a rede com seu próprio pequeno subconjunto após o pré-treinamento no conjunto de dados sintético. Fornecemos scripts de preparação de dados aqui.

2. Como gerar bons resultados de disparo zero na câmera do robô HSR:

Resposta: Consulte a resposta à FAQ1 acima para obter melhores resultados. Uma solução alternativa que empregamos para fazer uma demonstração rápida no robô HSR é distorcer as observações rgb-d que saem da câmera do robô HSR ou de qualquer outra câmera personalizada, de modo que correspondam aos intrínsecos da câmera real NOCS (que ajustamos nosso modelo sobre). Dessa forma, é possível obter resultados decentes apenas com ajustes finos no conjunto de dados reais do NOCS. Por favor, veja esta resposta e a essência correspondente aqui para o código.

3. no cuda GPUs available durante a execução do colab.

Resposta: Certifique-se de seguir esta instrução para ativar GPUs no Colab:

 Make sure that you have enabled the GPU under Runtime-> Change runtime type!

4. Estou recebendo raise RuntimeError('received %d items of ancdata' % RuntimeError: received 0 items of ancdata

Resposta: Aumente o ulimit para 2048 ou 8096 via uimit -n 2048

5. Estou recebendo RuntimeError: CUDA error: no kernel image is available for execution on the device ou You requested GPUs: [0] But your machine only has: []

Resposta: Verifique a instalação do pytorch com a instalação do cuda. Experimente o seguinte:

Instalando o cuda 10.2 e executando o mesmo script em requisitos.txt
Instalando a versão relevante do pytorch cuda, ou seja, alterando esta linha no requirements.txt

 torch==1.7.1
torchvision==0.8.2

6. Estou vendo métricas de valor zero no wandb

Resposta: Certifique-se de limitar as métricas. Como a primeira métrica de verificação de validação do Pytorch Lightning é alta, parece que todas as outras métricas são zero. Limite manualmente para remover a métrica atípica no wandb para ver as métricas reais.

Trabalhos de acompanhamento

Nosso trabalho de acompanhamento do ECCV:
- ShAPO: Representações implícitas para aparência de formato de múltiplos objetos e otimização de pose, ECCV, 2022
Outros trabalhos de acompanhamento (gritos aos autores pelo excelente trabalho):
- Objetos Articulados: CARTO: Categoria e Reconstrução Agnóstica Conjunta de Objetos ARTiculados, CVPR, 2023
- Agarrar: reconstrução simultânea de formas 3D de múltiplos objetos em tempo real, estimativa de pose 6DoF e previsão de apreensão densa
- Mais experimentos de apreensão + do mundo real: CenterGrasp: aprendizagem de representação implícita com reconhecimento de objeto para reconstrução simultânea de forma e estimativa de apreensão 6-DoF