تنزيل apc vision toolbox - تنزيل كود المصدر apc vision toolbox

apc vision toolbox

كود الذكاء الاصطناعي

1.0.0

تنزيل

مجموعة أدوات MIT-Princeton Vision لـ APC 2016

تحديث: لقد أصدرنا الكود والورق الخاص بنا لنظام الرؤية الجديد الخاص بنا هنا، والذي احتل المركز الأول في مهمة التخزين في Amazon Robotics Challenge 2017.

يحتوي هذا المستودع على رمز صندوق الأدوات لنظام الرؤية الخاص بنا الذي حصل على المركزين الثالث والرابع في Amazon Picking Challenge 2016. ويتضمن برامج تشغيل مستشعر RGB-D Realsense (حزمة مستقلة وحزمة ROS)، وحزمة ROS للتعلم العميق لتجزئة الكائنات ثنائية الأبعاد (التدريب والاختبار)، حزمة ROS لتقدير الوضعية 6D. هذا هو التنفيذ المرجعي للنماذج والكود الخاص بورقتنا:

التعلم العميق ذاتي الإشراف المتعدد لتقدير الوضعية السداسية الأبعاد في تحدي الانتقاء في أمازون (pdf، arxiv، صفحة ويب)

أندي تسنغ، كوان تينغ يو، شوران سونغ، دانييل سو، إد ووكر جونيور، ألبرتو رودريغيز وجيانكسيونج شياو

مؤتمر IEEE الدولي للروبوتات والأتمتة (ICRA) 2017

لقد اجتذبت أتمتة المستودعات اهتمامًا كبيرًا في السنوات الأخيرة، وربما كان ذلك أكثر وضوحًا من خلال تحدي Amazon Picking Challenge (APC). يتطلب تحقيق نظام اختيار ومكان مستقل تمامًا نظام رؤية قويًا يتعرف بشكل موثوق على الأشياء ووضعياتها السداسية الأبعاد. ومع ذلك، فإن الحل بعيد المنال عن إعداد المستودع بسبب البيئات المزدحمة، والانغلاق الذاتي، وضجيج المستشعر، ومجموعة كبيرة ومتنوعة من الكائنات. في هذه الورقة، نقدم نظام رؤية احتل المركزين الثالث والرابع في مهام التخزين والالتقاط، على التوالي في APC 2016. ويستفيد نهجنا من بيانات RGB-D متعددة العرض والتعلم القائم على البيانات والإشراف الذاتي للتغلب على الصعوبات المذكورة. وبشكل أكثر تحديدًا، نقوم أولاً بتقسيم وتسمية طرق عرض متعددة لمشهد ما باستخدام شبكة عصبية تلافيفية بالكامل، ثم نلائم نماذج الكائنات ثلاثية الأبعاد الممسوحة ضوئيًا مسبقًا مع التجزئة الناتجة للحصول على وضعية الكائن سداسي الأبعاد. يتطلب تدريب شبكة عصبية عميقة للتجزئة عادةً كمية كبيرة من بيانات التدريب مع تسميات يدوية. نقترح طريقة ذاتية الإشراف لإنشاء مجموعة بيانات كبيرة مصنفة دون تجزئة يدوية شاقة يمكن توسيع نطاقها إلى المزيد من فئات الكائنات بسهولة. لقد أثبتنا أن نظامنا يمكنه تقدير الوضعية السداسية الأبعاد للأشياء بشكل موثوق في ظل مجموعة متنوعة من السيناريوهات.

دعابة

نقلا عن

إذا وجدت هذا الكود مفيدًا في عملك، فيرجى مراعاة الاستشهاد بما يلي:

@inproceedings{zeng2016multi,
  title={Multi-view Self-supervised Deep Learning for 6D Pose Estimation in the Amazon Picking Challenge},
  author={Zeng, Andy and Yu, Kuan-Ting and Song, Shuran and Suo, Daniel and Walker Jr, Ed and Rodriguez, Alberto and Xiao, Jianxiong},
  booktitle={ICRA},
  year={2016}
}

رخصة

تم إصدار هذا الرمز بموجب ترخيص BSD المبسط (ارجع إلى ملف الترخيص للحصول على التفاصيل).

مجموعات البيانات

يمكن العثور على جميع معلومات وتنزيلات مجموعة البيانات ذات الصلة هنا.

اتصال

إذا كان لديك أي أسئلة أو وجدت أي أخطاء، فيرجى إبلاغي بذلك: Andy Zeng andyz[at]princeton[dot]edu

جدول المحتويات

بداية سريعة: عرض ماتلاب
حزمة ROS لتقدير الوضعية 6D
ريالسينس مستقل
حزمة Realsense ROS
حزمة التعلم العميق FCN ROS
تدريب FCN مع مارفن
رمز التقييم
أداة التعليقات التوضيحية ثلاثية الأبعاد

بداية سريعة: عرض ماتلاب

تقديرات كائن 6D الذي يطرحه على عينة بيانات المشهد (في data/sample ) مع نتائج تجزئة الكائن المحسوبة مسبقًا من حزمة التعلم العميق FCN ROS:

git clone https://github.com/andyzeng/apc-vision-toolbox.git (ملاحظة: حجم مستودع المصدر هو ~300 ميجابايت، وقد يستغرق الاستنساخ بعض الوقت)
cd apc-vision-toolbox/ros-packages/catkin_ws/src/pose_estimation/src/
ابدأ تشغيل Matlab وقم بتشغيل mdemo

حزمة ROS لتقدير الوضعية 6D

حزمة Matlab ROS لتقدير كائن 6D يطرح من خلال ملاءمة النموذج مع ICP على نتائج تجزئة كائن RGB-D. يمكن العثور هنا على نماذج سحابية نقطية ثلاثية الأبعاد للكائنات والصناديق.

التبعيات

حزمة التعلم العميق FCN ROS وجميع التبعيات الخاصة بها.
ماتلاب 2015b أو الأحدث

تجميع

انسخ حزمة ROS ros_packages/.../pose_estimation إلى دليل مصدر مساحة عمل catkin (على سبيل المثال catkin_ws/src )
اتبع الإرشادات الموجودة أعلى pose_estimation/src/make.m لتجميع رسائل ROS المخصصة لـ Matlab
قم بتجميع وظيفة GPU CUDA kernel في pose_estimation/src :

nvcc -ptx KNNSearch.cu

الاستخدام

ابدأ roscore
لبدء خدمة تقدير الوضعية، قم بتشغيل pose_estimation/src/startService.m . في كل مكالمة (راجع تنسيق طلب الخدمة الموضح في pose_estimation/srv/EstimateObjectPose.srv )، الخدمة:
يقوم بمعايرة أوضاع الكاميرا للمشهد باستخدام بيانات المعايرة
إجراء عملية الطرح الخلفية ثلاثية الأبعاد
بالنسبة لكل كائن في المشهد، استخدم ملاءمة النموذج لتقدير وضعه سداسي الأبعاد

تجريبي

تثبيت كافة التبعيات وتجميع هذه الحزمة
بدء roscore في المحطة
قم بإنشاء دليل مؤقت لاستخدامه بواسطة marvin_convnet لقراءة بيانات RGB-D وحفظ أقنعة التجزئة

mkdir /path/to/your/data/tmp

rosrun marvin_convnet detect _read_directory:="/path/to/your/data/tmp"
انتقل إلى pose_estimation/src
قم بتحرير مسارات الملفات وخياراتها في الجزء العلوي من demo.m
افتح ماتلاب وقم بتشغيل:

startService.m
demo.m

ريالسينس مستقل

برنامج C++ مستقل قابل للتنفيذ لدفق البيانات والتقاطها (إطارات RGB-D وسحب النقاط ثلاثية الأبعاد) في الوقت الفعلي باستخدام librealsense. تم الاختبار على Ubuntu 14.04 و16.04 باستخدام كاميرا Intel® RealSense™ F200.

راجع realsense_standalone

التبعيات

librealsense v1 (مهم: هذا الرمز يعمل فقط مع الإصدار 1 من librealsense - يمكن العثور على تعليمات التثبيت هنا)

قم بالتثبيت باستخدام الواجهة الخلفية Video4Linux

OpenCV (تم اختباره باستخدام OpenCV 3.1)

يستخدم لحفظ الصور

تجميع

 cd realsense_standalone
./compile.sh

الاستخدام

بعد التجميع، قم بتشغيل ./stream لبدء دفق إطارات RGB-D من جهاز Realsense. عندما تكون نافذة الدفق نشطة، اضغط على مفتاح شريط المسافة لالتقاط وحفظ إطار RGB-D الحالي على القرص. يتم حفظ معلومات الكاميرا ذات الصلة وإطارات RGB-D الملتقطة في مجلد مسمى عشوائيًا ضمن data .

إذا كان جهاز Realsense الخاص بك متصلاً ولكن لم يتم اكتشافه، فحاول استخدام منفذ USB مختلف. إذا فشل ذلك، قم بتشغيل البرنامج النصي التالي أثناء فصل الجهاز لتحديث منافذ USB الخاصة بك:

sudo ./scripts/resetUSBports.sh

حزمة Realsense ROS

حزمة C++ ROS لدفق البيانات والتقاطها (إطارات RGB-D وسحب النقاط ثلاثية الأبعاد) في الوقت الفعلي باستخدام librealsense. تم الاختبار على Ubuntu 14.04 و16.04 باستخدام كاميرا Intel® RealSense™ F200.

تأتي حزم ROS هذه في نسختين مختلفتين. يعتمد الإصدار المثبت على البرنامج المتوفر في نظامك:

الإصدار رقم 1: يُرجع فقط بيانات إطار RGB-D عند مكالمات الخدمة (لا يتطلب OpenCV أو PCL)
الإصدار رقم 2: إرجاع بيانات إطار RGB-D عند استدعاءات الخدمة ونشر سحب نقطية ثلاثية الأبعاد (يتطلب OpenCV وPCL)

انظر ros-packages/realsense_camera

التبعيات

librealsense v1 (مهم: هذا الرمز يعمل فقط مع الإصدار 1 من librealsense - يمكن العثور على تعليمات التثبيت هنا)

قم بالتثبيت باستخدام الواجهة الخلفية Video4Linux

[اختياري] OpenCV (تم اختباره باستخدام OpenCV 2.4.11)

يستخدم لحفظ الصور

[اختياري] Point Cloud Library (تم اختباره باستخدام PCL 1.7.1)

تستخدم لحفظ السحب النقطية

تجميع

انسخ حزمة ROS ros_packages/.../realsense_camera إلى دليل مصدر مساحة عمل catkin (على سبيل المثال catkin_ws/src )
إذا لزم الأمر، قم بتكوين realsense_camera/CMakeLists.txt وفقًا لتبعياتك الخاصة
في مساحة عمل catkin الخاصة بك، قم بتجميع الحزمة باستخدام catkin_make
devel/setup.sh

الاستخدام

ابدأ roscore
لبدء خدمة التقاط البيانات RGB-D ودفق البيانات من المستشعر، قم بتشغيل:

rosrun realsense_camera capture

تقوم الخدمة /realsense_camera بإرجاع البيانات من المستشعر (تنسيق بيانات الاستجابة الموضح في realsense_camera/srv/StreamSensor.srv )
إذا كنت بحاجة إلى نافذة GL لرؤية بيانات RGB-D المتدفقة، فقم بتشغيل rosrun realsense_camera capture _display:=True

حزمة التعلم العميق FCN ROS

حزمة C++ ROS لتجزئة الكائنات القائمة على التعلم العميق باستخدام FCNs (شبكات تلافيفية بالكامل) مع Marvin، وهو إطار شبكة عصبية خفيف الوزن مخصص لوحدة معالجة الرسومات فقط. تعمل هذه الحزمة على تغذية بيانات RGB-D للأمام من خلال شبكة ConvNet المدربة مسبقًا لاسترداد نتائج تجزئة الكائنات. يتم تدريب الشبكات العصبية دون الاتصال بالإنترنت باستخدام Marvin (انظر تدريب FCN مع Marvin).

راجع ros-packages/marvin_convnet

التبعيات

يجب تجميع حزمة Realsense ROS أولاً.
CUDA 7.5 وcuDNN 5. قد تحتاج إلى التسجيل في NVIDIA. فيما يلي بعض الخطوات الإضافية لإعداد cuDNN 5. ملاحظة: نوصي بشدة بتثبيت إصدارات مختلفة من cuDNN على أدلة مختلفة (على سبيل المثال، /usr/local/cudnn/vXX ) لأن حزم البرامج المختلفة قد تتطلب إصدارات مختلفة.

LIB_DIR=lib $( [[ $( uname ) == " Linux " ]] && echo 64 )
CUDNN_LIB_DIR=/usr/local/cudnn/v5/ $LIB_DIR
echo LD_LIBRARY_PATH= $LD_LIBRARY_PATH : $CUDNN_LIB_DIR >> ~ /.profile && ~ /.profile

tar zxvf cudnn * .tgz
sudo cp cuda/ $LIB_DIR / * $CUDNN_LIB_DIR /
sudo cp cuda/include/ * /usr/local/cudnn/v5/include/

OpenCV (تم اختباره باستخدام OpenCV 2.4.11)

يستخدم لحفظ الصور

تجميع

انسخ حزمة ROS ros_packages/.../marvin_convnet إلى دليل مصدر مساحة عمل catkin (على سبيل المثال catkin_ws/src )
إذا لزم الأمر، قم بتكوين realsense_camera/CMakeLists.txt وفقًا لتبعياتك الخاصة
في مساحة عمل catkin الخاصة بك، قم بتجميع الحزمة باستخدام catkin_make
devel/setup.sh

الاستخدام

انتقل إلى ros_packages/.../marvin_convnet/models/competition/ وقم بتشغيل bash script ./download_weights.sh لتنزيل أوزاننا المدربة لتجزئة الكائنات (تم تدريبها على مجموعة بيانات التدريب الخاصة بنا)
تحرير marvin_convnet/src/detect.cu : في الجزء العلوي من الملف، حدد مسار الملف إلى ملف .json الخاص ببنية الشبكة وأوزان .marvin.
قم بإنشاء مجلد يسمى tmp في apc-vision-toolbox/data (على سبيل المثال apc-vision-toolbox/data/tmp ). هذا هو المكان الذي سيقوم فيه marvin_convnet بقراءة/كتابة بيانات RGB-D. يتبع تنسيق البيانات في tmp تنسيق المشاهد في مجموعات البيانات لدينا وتنسيق البيانات المحفوظة بواسطة Realsense Standalone.
يقدم marvin_convnet خدمتين: save_images detect . يسترد الأول بيانات RGB-D من حزمة Realsense ROS ويكتب على القرص في مجلد tmp ، بينما يقرأ الأخير من القرص في مجلد tmp ويغذي بيانات RGB-D للأمام من خلال FCN ويحفظ صور الاستجابة على القرص
لبدء خدمة حفظ البيانات RGB-D، قم بتشغيل:

rosrun marvin_convnet save_images _write_directory:= " /path/to/your/data/tmp " _camera_service_name:= " /realsense_camera "

لبدء خدمة FCN، قم بتشغيل:

rosrun marvin_convnet detect _read_directory:= " /path/to/your/data/tmp " _service_name:= " /marvin_convnet "

مثال على استدعاء خدمة ROS لإجراء تجزئة الكائن لزجاجة الغراء ومربع علامة المعرض (بافتراض أن بيانات RGB-D الخاصة بالمشهد موجودة في مجلد tmp ):

rosservice call /marvin_convnet [ " elmers_washable_no_run_school_glue " , " expo_dry_erase_board_eraser " ] 0 0

تدريب FCN مع مارفن

تعليمات برمجية ونماذج للتدريب على تجزئة الكائنات باستخدام FCNs (الشبكات التلافيفية بالكامل) مع Marvin، وهو إطار شبكة عصبية خفيف الوزن مخصص لوحدة معالجة الرسومات فقط. يتضمن ملفات .json الخاصة ببنية الشبكة في convnet-training/models وطبقة بيانات Marvin في convnet-training/apc.hpp التي تقوم بشكل عشوائي باختبار صور RGB-D (RGB وHHA) من مجموعة بيانات التدريب على التجزئة الخاصة بنا.

راجع convnet-training

التبعيات

CUDA 7.5 وcuDNN 5. قد تحتاج إلى التسجيل في NVIDIA. فيما يلي بعض الخطوات الإضافية لإعداد cuDNN 5. ملاحظة: نوصي بشدة بتثبيت إصدارات مختلفة من cuDNN على أدلة مختلفة (على سبيل المثال، /usr/local/cudnn/vXX ) لأن حزم البرامج المختلفة قد تتطلب إصدارات مختلفة.

LIB_DIR=lib $( [[ $( uname ) == " Linux " ]] && echo 64 )
CUDNN_LIB_DIR=/usr/local/cudnn/v5/ $LIB_DIR
echo LD_LIBRARY_PATH= $LD_LIBRARY_PATH : $CUDNN_LIB_DIR >> ~ /.profile && ~ /.profile

tar zxvf cudnn * .tgz
sudo cp cuda/ $LIB_DIR / * $CUDNN_LIB_DIR /
sudo cp cuda/include/ * /usr/local/cudnn/v5/include/

OpenCV (تم اختباره باستخدام OpenCV 2.4.11)

تستخدم لقراءة الصور

تعليمات الإعداد

قم بتنزيل مجموعة بيانات التدريب على التجزئة الخاصة بنا
انتقل إلى الدليل convnet-training/
حدد مسار ملف مجموعة بيانات التدريب في طبقة APCData الخاصة بهندسة الشبكة في models/train_shelf_color.json
انتقل إلى models/weights/ وقم بتشغيل bash script ./download_weights.sh لتنزيل أوزان VGG المدربة مسبقًا على ImageNet (راجع Marvin لمزيد من الأوزان المدربة مسبقًا)
انتقل إلى convnet-training/ وقم بتشغيل المحطة ./compile.sh لتجميع Marvin.
قم بالتشغيل في Terminal ./marvin train models/rgb-fcn/train_shelf_color.json models/weights/vgg16_imagenet_half.marvin لتدريب نموذج التجزئة على بيانات RGB-D مع الكائنات الموجودة في الرف (بالنسبة للكائنات الموجودة في الحقيبة، استخدم models/rgb-fcn/train_shelf_color.json ).

رمز التقييم

الكود المستخدم لإجراء التجارب في ورقتنا؛ يختبر نظام الرؤية الكامل على مجموعة البيانات القياسية "Shelf & Tote".

انظر evaluation

تعليمات الإعداد

قم بتنزيل مجموعة البيانات المعيارية "Shelf & Tote" الخاصة بنا من هنا واستخرج محتوياتها إلى apc-vision-toolbox/data/benchmark (على سبيل المثال apc-vision-toolbox/data/benchmark/office , `apc-vision-toolbox/data/benchmark/ مستودع "، الخ.)
في evaluation/getError.m ، قم بتغيير المتغير benchmarkPath للإشارة إلى مسار الملف الخاص بدليل مجموعة البيانات المعيارية الخاصة بك
لقد قدمنا تنبؤات نظام الرؤية لدينا في ملف Matlab .mat المحفوظ evaluation/predictions.mat .mat. لحساب دقة هذه التنبؤات مقابل تسميات الحقيقة الأساسية لمجموعة البيانات المعيارية "Shelf & Tote"، قم بتشغيل evaluation/getError.m

أداة التعليقات التوضيحية ثلاثية الأبعاد

أداة تعتمد على WebGL عبر الإنترنت لتوضيح كائن 6D للحقيقة الأرضية على بيانات RGB-D. يتبع تنفيذ RGB-D Annotator مع تغييرات صغيرة. فيما يلي رابط التنزيل لنسختنا الدقيقة من الحواشي.

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع كود الذكاء الاصطناعي
وقت التحديث 2025-01-28
الحجم 141.08MB
من Github

تطبيقات ذات صلة

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Switch Toolbox

2024-11-02
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
تطبيق ToolBox Xiaobaidian

2023-06-28

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
node telegram bot api

كود الذكاء الاصطناعي

v0.50.0
typebot.io

كود الذكاء الاصطناعي

v3.1.2
python wechaty getting started

كود الذكاء الاصطناعي

1.0.0
waymo open dataset

شفرة المصدر الأخرى

December 2023 Update
wp functions

فئات أخرى

1.0.0
termwind

فئات أخرى

v2.3.0

أخبار ذات صلة الكل