Загрузка apc vision toolbox - Загрузка исходного кода apc vision toolbox

apc vision toolbox

AI Исходный код

1.0.0

Скачать

Набор инструментов MIT-Princeton Vision для APC 2016

Обновление: здесь мы опубликовали код и документ для нашей новой системы машинного зрения, которая заняла 1-е место в задаче по укладке на Amazon Robotics Challenge 2017.

Этот репозиторий содержит код набора инструментов для нашей системы машинного зрения, занявшей 3-е и 4-е места на Amazon Picking Challenge 2016. Включает драйверы датчиков RGB-D Realsense (автономный и пакет ROS), пакет ROS для глубокого обучения для сегментации 2D-объектов (обучение и тестирование), Пакет ROS для оценки 6D-позы. Это эталонная реализация моделей и кода для нашей статьи:

Многопрофильное глубокое обучение с самоконтролем для оценки 6D-позы в Amazon Picking Challenge (pdf, arxiv, веб-страница)

Энди Цзэн, Куан-Тин Ю, Шуран Сонг, Дэниел Суо, Эд Уокер-младший, Альберто Родригес и Цзяньсюн Сяо

Международная конференция IEEE по робототехнике и автоматизации (ICRA) 2017

В последние годы автоматизация складов вызвала значительный интерес, возможно, наиболее заметным из которых является Amazon Picking Challenge (APC). Для создания полностью автономной системы захвата и размещения требуется надежная система технического зрения, которая надежно распознает объекты и их шестимерные положения. Однако решение ускользает от условий склада из-за загроможденности окружающей среды, самозатенения, шума датчиков и большого разнообразия объектов. В этой статье мы представляем систему машинного зрения, которая заняла 3-е и 4-е места по задачам укладки и комплектования соответственно на выставке APC 2016. Наш подход использует многопроекционные данные RGB-D и управляемое данными самоконтролируемое обучение для преодоления трудностей. вышеперечисленные трудности. Точнее, мы сначала сегментируем и маркируем несколько представлений сцены с помощью полностью сверточной нейронной сети, а затем подгоняем предварительно отсканированные трехмерные объектные модели к полученной сегментации, чтобы получить позу шестимерного объекта. Обучение глубокой нейронной сети сегментации обычно требует большого объема обучающих данных с ручными метками. Мы предлагаем метод самоконтроля для создания большого размеченного набора данных без утомительной ручной сегментации, который можно легко масштабировать до большего количества категорий объектов. Мы демонстрируем, что наша система может надежно оценивать шестимерное положение объектов в различных сценариях.

Тизер

Цитирование

Если вы найдете этот код полезным в своей работе, рассмотрите возможность цитирования:

@inproceedings{zeng2016multi,
  title={Multi-view Self-supervised Deep Learning for 6D Pose Estimation in the Amazon Picking Challenge},
  author={Zeng, Andy and Yu, Kuan-Ting and Song, Shuran and Suo, Daniel and Walker Jr, Ed and Rodriguez, Alberto and Xiao, Jianxiong},
  booktitle={ICRA},
  year={2016}
}

Лицензия

Этот код распространяется под Упрощенной лицензией BSD (подробную информацию см. в файле ЛИЦЕНЗИИ).

Наборы данных

Всю соответствующую информацию о наборах данных и файлы для загрузки можно найти здесь.

Контакт

Если у вас есть вопросы или вы обнаружили ошибки, дайте мне знать: Энди Цзэн andyz[at]princeton[dot]edu

Быстрый старт: демонстрация Matlab
Пакет ROS для оценки позы 6D
Автономный RealSense
Пакет Realsense ROS
Пакет глубокого обучения FCN ROS
Тренировка FCN с Марвином
Оценочный код
Инструмент 3D-аннотаций

Быстрый старт: демонстрация Matlab

Оценивает положение 6D-объекта на примере данных сцены (в data/sample ) с использованием предварительно вычисленных результатов сегментации объекта из пакета Deep Learning FCN ROS:

git clone https://github.com/andyzeng/apc-vision-toolbox.git (Примечание: размер исходного репозитория составляет ~ 300 МБ, клонирование может занять некоторое время)
cd apc-vision-toolbox/ros-packages/catkin_ws/src/pose_estimation/src/
Запустите Matlab и запустите mdemo

Пакет ROS для оценки позы 6D

Пакет Matlab ROS для оценки положения 6D-объекта путем подбора модели с помощью ICP по результатам сегментации объекта RGB-D. 3D-модели объектов и ячеек из облаков точек можно найти здесь.

Зависимости

Пакет глубокого обучения FCN ROS и все его соответствующие зависимости.
Matlab 2015b или новее

Сборник

Скопируйте пакет ROS ros_packages/.../pose_estimation в исходный каталог рабочей области Catkin (например, catkin_ws/src ).
Следуйте инструкциям в верхней части pose_estimation/src/make.m чтобы скомпилировать пользовательские сообщения ROS для Matlab.
Скомпилируйте функцию ядра GPU CUDA pose_estimation/src :

nvcc -ptx KNNSearch.cu

Использование

Начать roscore
Чтобы запустить службу оценки позы, pose_estimation/src/startService.m . При каждом вызове (см. формат запроса службы, описанный pose_estimation/srv/EstimateObjectPose.srv ), служба:
Калибровка позы камеры на сцене с использованием данных калибровки.
Выполнить вычитание 3D-фона
Для каждого объекта в сцене используйте подгонку модели, чтобы оценить его 6D-позу.

Демо

Установите все зависимости и скомпилируйте этот пакет.
Запустить roscore в терминале
Создайте временный каталог, который будет использоваться marvin_convnet для чтения данных RGB-D и сохранения масок сегментации.

mkdir /path/to/your/data/tmp

rosrun marvin_convnet detect _read_directory:="/path/to/your/data/tmp"
Перейдите pose_estimation/src
Редактируйте пути к файлам и параметры в верхней части demo.m
Откройте Matlab и запустите:

startService.m
demo.m

Автономный RealSense

Автономный исполняемый файл C++ для потоковой передачи и захвата данных (кадры RGB-D и трехмерные облака точек) в реальном времени с использованием librealsense. Протестировано на Ubuntu 14.04 и 16.04 с камерой Intel® RealSense™ F200.

См. realsense_standalone

Зависимости

librealsense v1 (важно: этот код работает только с librealsense версии 1 — инструкции по установке можно найти здесь)

Установите с помощью бэкэнда Video4Linux.

OpenCV (протестировано с OpenCV 3.1)

Используется для сохранения изображений.

Сборник

 cd realsense_standalone
./compile.sh

Использование

После компиляции запустите ./stream , чтобы начать потоковую передачу кадров RGB-D с устройства Realsense. Пока окно потока активно, нажмите клавишу пробела, чтобы захватить и сохранить текущий кадр RGB-D на диск. Соответствующая информация о камере и захваченные кадры RGB-D сохраняются в папке со случайным именем в разделе data .

Если ваше устройство Realsense подключено, но остается незамеченным, попробуйте использовать другой порт USB. Если это не помогло, запустите следующий сценарий, когда устройство отключено, чтобы обновить порты USB:

sudo ./scripts/resetUSBports.sh

Пакет Realsense ROS

Пакет C++ ROS для потоковой передачи и захвата данных (кадры RGB-D и трехмерные облака точек) в реальном времени с использованием librealsense. Протестировано на Ubuntu 14.04 и 16.04 с камерой Intel® RealSense™ F200.

Эти пакеты ROS доступны в двух разных версиях. Какая версия будет установлена, будет зависеть от доступного программного обеспечения вашей системы:

Версия № 1: возвращает данные кадра RGB-D только при вызовах службы (не требует OpenCV или PCL).
Версия № 2: возвращает данные кадра RGB-D при вызовах службы и публикует трехмерные облака точек (требуется OpenCV и PCL).

См. ros-packages/realsense_camera

Зависимости

librealsense v1 (важно: этот код работает только с librealsense версии 1 — инструкции по установке можно найти здесь)

Установите с помощью бэкэнда Video4Linux.

[Необязательно] OpenCV (протестировано с OpenCV 2.4.11)

Используется для сохранения изображений.

[Необязательно] Библиотека облаков точек (протестировано с PCL 1.7.1)

Используется для сохранения облаков точек.

Сборник

Скопируйте пакет ROS ros_packages/.../realsense_camera в исходный каталог рабочего пространства Catkin (например, catkin_ws/src ).
При необходимости настройте realsense_camera/CMakeLists.txt в соответствии с вашими зависимостями.
В рабочей области Catkin скомпилируйте пакет с помощью catkin_make
Источник: devel/setup.sh

Использование

Начать roscore
Чтобы запустить службу сбора данных RGB-D и выполнить потоковую передачу данных с датчика, запустите:

rosrun realsense_camera capture

Сервис /realsense_camera возвращает данные от датчика (формат данных ответа описан в realsense_camera/srv/StreamSensor.srv ).
Если вам нужно окно GL для просмотра потоковых данных RGB-D, запустите rosrun realsense_camera capture _display:=True

Пакет глубокого обучения FCN ROS

Пакет C++ ROS для сегментации объектов на основе глубокого обучения с использованием FCN (полностью сверточные сети) с Marvin, облегченной структурой нейронных сетей, использующей только графический процессор. Этот пакет передает данные RGB-D через предварительно обученную сеть ConvNet для получения результатов сегментации объектов. Нейронные сети обучаются в автономном режиме с помощью Марвина (см. «Обучение FCN с Марвином»).

См. ros-packages/marvin_convnet

Зависимости

Пакет Realsense ROS необходимо сначала скомпилировать.
CUDA 7.5 и cuDNN 5. Возможно, вам потребуется зарегистрироваться в NVIDIA. Ниже приведены некоторые дополнительные шаги по настройке cuDNN 5. ПРИМЕЧАНИЕ. Мы настоятельно рекомендуем вам установить разные версии cuDNN в разные каталоги (например, /usr/local/cudnn/vXX ), поскольку для разных пакетов программного обеспечения могут потребоваться разные версии.

LIB_DIR=lib $( [[ $( uname ) == " Linux " ]] && echo 64 )
CUDNN_LIB_DIR=/usr/local/cudnn/v5/ $LIB_DIR
echo LD_LIBRARY_PATH= $LD_LIBRARY_PATH : $CUDNN_LIB_DIR >> ~ /.profile && ~ /.profile

tar zxvf cudnn * .tgz
sudo cp cuda/ $LIB_DIR / * $CUDNN_LIB_DIR /
sudo cp cuda/include/ * /usr/local/cudnn/v5/include/

OpenCV (протестировано с OpenCV 2.4.11)

Используется для сохранения изображений.

Сборник

Скопируйте пакет ROS ros_packages/.../marvin_convnet в исходный каталог рабочей области Catkin (например, catkin_ws/src ).
При необходимости настройте realsense_camera/CMakeLists.txt в соответствии с вашими зависимостями.
В рабочей области Catkin скомпилируйте пакет с помощью catkin_make
Источник: devel/setup.sh

Использование

Перейдите в ros_packages/.../marvin_convnet/models/competition/ и запустите скрипт bash ./download_weights.sh , чтобы загрузить наши обученные веса для сегментации объектов (обученные на нашем наборе обучающих данных).
Отредактируйте marvin_convnet/src/detect.cu : в верхней части файла укажите путь к файлу сетевой архитектуры .json и веса .marvin.
Создайте папку с именем tmp в apc-vision-toolbox/data (например, apc-vision-toolbox/data/tmp ). Здесь marvin_convnet будет читать/записывать данные RGB-D. Формат данных в tmp соответствует формату сцен в наших наборах данных и формату данных, сохраненных Realsense Standalone.
marvin_convnet предлагает две услуги: save_images и detect . Первый извлекает данные RGB-D из пакета Realsense ROS и записывает на диск в папку tmp , а второй считывает с диска в папке tmp , передает данные RGB-D через FCN и сохраняет изображения ответов на диск.
Чтобы запустить службу сохранения данных RGB-D, запустите:

rosrun marvin_convnet save_images _write_directory:= " /path/to/your/data/tmp " _camera_service_name:= " /realsense_camera "

Чтобы запустить службу FCN, выполните:

rosrun marvin_convnet detect _read_directory:= " /path/to/your/data/tmp " _service_name:= " /marvin_convnet "

Пример вызова службы ROS для сегментации объекта для бутылки с клеем и коробки с маркером экспозиции (при условии, что данные RGB-D сцены находятся в папке tmp ):

rosservice call /marvin_convnet [ " elmers_washable_no_run_school_glue " , " expo_dry_erase_board_eraser " ] 0 0

Тренировка FCN с Марвином

Код и модели для обучения сегментации объектов с использованием FCN (полностью сверточных сетей) с Marvin, облегченной структурой нейронных сетей, использующей только графический процессор. Включает файлы сетевой архитектуры .json в convnet-training/models и уровень данных Marvin в convnet-training/apc.hpp , который случайным образом выбирает изображения RGB-D (RGB и HHA) из нашего набора данных для обучения сегментации.

См convnet-training

Зависимости

CUDA 7.5 и cuDNN 5. Возможно, вам потребуется зарегистрироваться в NVIDIA. Ниже приведены некоторые дополнительные шаги по настройке cuDNN 5. ПРИМЕЧАНИЕ. Мы настоятельно рекомендуем вам установить разные версии cuDNN в разные каталоги (например, /usr/local/cudnn/vXX ), поскольку для разных пакетов программного обеспечения могут потребоваться разные версии.

LIB_DIR=lib $( [[ $( uname ) == " Linux " ]] && echo 64 )
CUDNN_LIB_DIR=/usr/local/cudnn/v5/ $LIB_DIR
echo LD_LIBRARY_PATH= $LD_LIBRARY_PATH : $CUDNN_LIB_DIR >> ~ /.profile && ~ /.profile

tar zxvf cudnn * .tgz
sudo cp cuda/ $LIB_DIR / * $CUDNN_LIB_DIR /
sudo cp cuda/include/ * /usr/local/cudnn/v5/include/

OpenCV (протестировано с OpenCV 2.4.11)

Используется для чтения изображений

Инструкции по настройке

Загрузите наш набор данных для обучения сегментации
Перейдите в каталог convnet-training/
Укажите путь к файлу набора обучающих данных на уровне APCData сетевой архитектуры в models/train_shelf_color.json
Перейдите в models/weights/ и запустите сценарий bash ./download_weights.sh , чтобы загрузить предварительно обученные веса VGG на ImageNet (дополнительные предварительно обученные веса см. в разделе Марвин)
Перейдите в convnet-training/ и запустите в терминале ./compile.sh чтобы скомпилировать Marvin.
Запустите в терминале ./marvin train models/rgb-fcn/train_shelf_color.json models/weights/vgg16_imagenet_half.marvin чтобы обучить модель сегментации на данных RGB-D с объектами на полке (для объектов на полке используйте models/rgb-fcn/train_shelf_color.json ).

Оценочный код

Код, используемый для проведения экспериментов в нашей статье; тестирует систему полного машинного зрения на наборе эталонных данных Shelf & Tote.

Посмотреть evaluation

Инструкции по настройке

Загрузите наш набор эталонных данных Shelf & Tote отсюда и извлеките его содержимое в apc-vision-toolbox/data/benchmark (например, apc-vision-toolbox/data/benchmark/office , `apc-vision-toolbox/data/benchmark/ склад» и др.)
В файле evaluation/getError.m измените переменную benchmarkPath , чтобы она указывала на путь к каталогу набора контрольных данных.
Мы предоставили прогнозы нашей системы машинного зрения в сохраненном файле Matlab .mat evaluation/predictions.mat . Чтобы вычислить точность этих прогнозов по сравнению с основными метками набора контрольных данных «Shelf & Tote», запустите evaluation/getError.m

Инструмент 3D-аннотаций

Онлайн-инструмент на основе WebGL для аннотирования наземных поз 6D-объектов на основе данных RGB-D. Следует реализации аннотатора RGB-D с небольшими изменениями. Вот ссылка для скачивания нашей точной копии аннотатора.

Расширять

Дополнительная информация