Загрузка CenterSnap - Загрузка исходного кода CenterSnap

CenterSnap

AI Исходный код

1.0.0

Скачать

CenterSnap: однократная трехмерная реконструкция формы нескольких объектов и категориальная 6D-оценка положения и размера

Этот репозиторий представляет собой реализацию нашей статьи на Pytorch:

CenterSnap: однократная трехмерная реконструкция формы нескольких объектов и категориальная 6D-оценка положения и размера
Мухаммад Зубайр Иршад , Томас Коллар, Майкл Ласки, Кевин Стоун, Жолт Кира
Международная конференция по робототехнике и автоматизации (ICRA), 2022 г.

[Страница проекта] [arXiv] [PDF] [Видео] [Плакат]

Последующие работы ECCV'22:

ШАПО: неявные представления для оптимизации формы, внешнего вида и позы нескольких объектов
Мухаммад Зубайр Иршад , Сергей Захаров, Рарес Амбрус, Томас Коллар, Жолт Кира, Адриан Гайдон
Европейская конференция по компьютерному зрению (ECCV), 2022 г.

[Страница проекта] [arXiv] [PDF] [Видео] [Плакат]

Цитирование

Если вы найдете этот репозиторий полезным, пожалуйста, рассмотрите возможность цитирования:

 @inproceedings{irshad2022centersnap,
     title = {CenterSnap: Single-Shot Multi-Object 3D Shape Reconstruction and Categorical 6D Pose and Size Estimation},
     author = {Muhammad Zubair Irshad and Thomas Kollar and Michael Laskey and Kevin Stone and Zsolt Kira},
     journal = {IEEE International Conference on Robotics and Automation (ICRA)},
     year = {2022}
     }


@inproceedings{irshad2022shapo,
     title = {ShAPO: Implicit Representations for Multi-Object Shape Appearance and Pose Optimization},
     author = {Muhammad Zubair Irshad and Sergey Zakharov and Rares Ambrus and Thomas Kollar and Zsolt Kira and Adrien Gaidon},
     journal = {European Conference on Computer Vision (ECCV)},
     year = {2022}
     }

Содержание

Среда
Набор данных ( обновлено )
Обучение и вывод
Часто задаваемые вопросы ( обновлено )
? Последующие работы ( Обновлено )

Среда

Создайте виртуальную среду Python 3.8 и установите требования:

 cd $CenterSnap_Repo
conda create -y --prefix ./env python=3.8
conda activate ./env/
./env/bin/python -m pip install --upgrade pip
./env/bin/python -m pip install -r requirements.txt

Установите torch==1.7.1 torchvision==0.8.2 в зависимости от вашей версии CUDA. Код был собран и протестирован на cuda 10.2 . Пример команды для установки torch на cuda 10.2 выглядит следующим образом:

pip install torch==1.7.1 torchvision==0.8.2 torchaudio==0.7.2

Набор данных

Новое обновление : пожалуйста, ознакомьтесь с распространяемым скриптом нашей новой работы ShAPO ECCV'22, если вы хотите собрать свои собственные данные с нуля за пару часов. Этот распределенный скрипт собирает данные в том же формате, который требуется CenterSnap , хотя и с некоторыми незначительными изменениями, как упомянуто в этом репозитории.

Загрузите предварительно обработанный набор данных

Мы рекомендуем загрузить предварительно обработанный набор данных для обучения и оценки модели CenterSnap. Загрузите и распакуйте наборы данных Synthetic (868 ГБ) и Real (70 ГБ). Эти файлы содержат все данные для обучения и проверки, необходимые для воспроизведения наших результатов.

 cd $CenterSnap_REPO/data
wget https://tri-robotics-public.s3.amazonaws.com/centersnap/CAMERA.tar.gz
tar -xzvf CAMERA.tar.gz

wget https://tri-robotics-public.s3.amazonaws.com/centersnap/Real.tar.gz
tar -xzvf Real.tar.gz

Структура каталога данных должна быть следующей:

 data
├── CAMERA
│   ├── train
│   └── val_subset
├── Real
│   ├── train
└── └── test

Чтобы подготовить собственный набор данных, мы предоставляем дополнительные сценарии в разделе подготовить_данные.

Обучение и вывод

Тренируйтесь на NOCS Synthetic (требуется 13 ГБ памяти графического процессора):

./runner.sh net_train.py @configs/net_config.txt

Обратите внимание, что runner.sh эквивалентен использованию Python для запуска скрипта. Кроме того, он автоматически настраивает PYTHONPATH и CenterSnap Enviornment Path.

Точная настройка реального поезда NOCS (обратите внимание, что хорошие результаты могут быть получены после точной настройки набора реальных поездов всего на несколько эпох, т.е. 1-5):

./runner.sh net_train.py @configs/net_config_real_resume.txt --checkpoint p ath t o b est c heckpoint

Вывод на основе реального тестового подмножества NOCS

Загрузите небольшую подсистему NOCS Real отсюда [здесь]

./runner.sh inference/inference_real.py @configs/net_config.txt --data_dir path_to_nocs_test_subset --checkpoint checkpoint_path_here

Вы должны увидеть визуализации, сохраненные в results/CenterSnap . Измените --ouput_path в *config.txt, чтобы сохранить их в другой папке.

Необязательно (предварительное обучение автокодировщика формы)

Мы предоставляем предварительно обученную модель для автокодировщика формы, которая будет использоваться для сбора данных и вывода. Хотя наша кодовая база не требует отдельного обучения автокодировщика формы, если вы хотите это сделать, мы предоставляем дополнительные сценарии в разделе external/shape_pretraining.

Часто задаваемые вопросы

1. Я не получаю хорошей производительности при обработке изображений с пользовательских камер, например Realsense, OAK-D и других.

Ответ: Поскольку сеть была точно настроена только на реальных данных NOCS, в настоящее время предварительно обученная сеть дает хороший 3D-прогноз для следующих настроек камеры. Чтобы получить хороший прогноз параметров вашей собственной камеры, обязательно настройте сеть с помощью собственного небольшого подмножества после предварительного обучения на синтетическом наборе данных. Здесь мы предоставляем скрипты подготовки данных.

2. Как получить хорошие результаты нулевого снимка на камере-роботе HSR:

Ответ: Для достижения наилучших результатов ознакомьтесь с ответом на часто задаваемые вопросы 1 выше . Альтернативное решение, которое мы использовали для быстрой демонстрации робота HSR, — это деформировать наблюдения RGB-D, исходящие из камеры робота HSR или любой другой специальной камеры, так, чтобы они соответствовали внутренним характеристикам реальной камеры NOCS (которую мы точно настраиваем в нашей модели). на). Таким образом, можно получить достойные результаты, просто настроив реальный набор данных NOCS. Пожалуйста, ознакомьтесь с этим ответом и соответствующей сутью кода здесь.

3. Во время работы Colab у меня no cuda GPUs available .

Ответ: Обязательно следуйте этой инструкции, чтобы активировать графические процессоры в Colab:

 Make sure that you have enabled the GPU under Runtime-> Change runtime type!

4. Я получаю сообщение raise RuntimeError('received %d items of ancdata' % RuntimeError: received 0 items of ancdata

Ответ: увеличьте ulimit до 2048 или 8096 с помощью uimit -n 2048

5. Я получаю RuntimeError: CUDA error: no kernel image is available for execution on the device или You requested GPUs: [0] But your machine only has: []

Ответ: Проверьте установку pytorch с установкой cuda. Попробуйте следующее:

Установка cuda 10.2 и запуск того же сценария в файле требований.txt
Установка соответствующей версии pytorch cuda, т.е. изменение этой строки в файле требований.txt.

 torch==1.7.1
torchvision==0.8.2

6. Я вижу нулевые показатели в wandb.

Ответ: Убедитесь, что вы установили пороговые значения показателей. Поскольку первая метрика проверки проверки Pytorch Lightning высока, кажется, что все остальные метрики равны нулю. Установите пороговое значение вручную, чтобы удалить выбросы показателей в wandb и просмотреть фактические показатели.

Последующие работы

Наша последующая работа по ECCV:
- ШАПО: Неявные представления для внешнего вида нескольких объектов и оптимизации позы, ECCV, 2022
Другие последующие работы (спасибо авторам за прекрасную работу):
- Сочлененные объекты: CARTO: Категория и совместная агностическая реконструкция сочлененных объектов, CVPR, 2023 г.
- Захват: одновременная трехмерная реконструкция нескольких объектов в режиме реального времени, оценка положения 6DoF и прогнозирование плотного захвата
- Дополнительные эксперименты по захвату + реальные эксперименты: CenterGrasp: обучение объектно-ориентированному неявному представлению для одновременной реконструкции формы и оценки захвата с 6 степенями свободы