لطالما كانت الأبحاث حول حجم البيانات في مجال معالجة الروبوت تحديًا كبيرًا في مجال تعلم الروبوت. تركز الأبحاث الحالية على مجالات معالجة اللغة الطبيعية ورؤية الكمبيوتر ، في حين أن الأبحاث في مجال معالجة الروبوت نادرة نسبيًا. تقدم هذه المقالة أحدث النتائج البحثية لفريق البحث في جامعة Tsinghua.
التطور السريع للتعلم العميق لا ينفصل عن مجموعات البيانات واسعة النطاق والنماذج والحجم الحسابي. في مجالات معالجة اللغة الطبيعية ورؤية الكمبيوتر ، اكتشف الباحثون علاقة قانونية بين أداء النموذج ومقياس البيانات. ومع ذلك ، فإن مجال الروبوتات ، وخاصة التلاعب بالروبوت ، لم يثبت بعد قوانين مقياس مماثلة.
نشر فريق أبحاث في جامعة Tsinghua مؤخرًا ورقة تستكشف مقياس البيانات في تعلم تقليد الروبوت واقترح استراتيجية فعالة لجمع البيانات التي جمعت بيانات كافية في فترة ما بعد ظهر أحد الأيام فقط لجعل القدرة الإستراتيجية على تحقيق معدل نجاح يبلغ حوالي 90 ٪ على جديد البيئات والكائنات الجديدة.
قام الباحثون بتقسيم قدرات التعميم إلى بعدين: التعميم البيئي وتعميم الكائن ، واستخدموا الفكين المحمولين باليد لجمع بيانات العرض البشري على بيئات مختلفة وكائنات مختلفة ، وصممت هذه البيانات باستخدام استراتيجيات الانتشار. ركز الباحثون أولاً على مهمتين من سكب الماء والماوس.
تظهر نتائج البحث:
إن قدرة التعميم على الاستراتيجية لكائن جديد أو بيئة جديدة أو كليهما تتعلق بعدد من كائنات التدريب أو بيئات التدريب أو أزواج بيئة التدريب على التوالي.
زيادة تنوع البيئات والأشياء أكثر فعالية من زيادة عدد المظاهرات لكل بيئة أو كائن.
جمع البيانات في أكبر عدد ممكن من البيئات (على سبيل المثال ، 32 بيئة) ، مع كائن تشغيل فريد و 50 عرضًا في كل بيئة ، يمكنك تدريب استراتيجية ذات قدرة تعميم قوية (معدل نجاح 90 ٪) لجعلها يمكن أن تعمل على جديد البيئات والكائنات الجديدة.
بناءً على قوانين مقياس البيانات هذه ، اقترح الباحثون استراتيجية فعالة لجمع البيانات. يوصون بجمع البيانات في أكبر عدد ممكن من البيئات المختلفة ، باستخدام كائن فريد واحد فقط في كل بيئة. عندما يصل إجمالي عدد أزواج البيئة والكائنات إلى 32 ، عادة ما يكون ذلك كافياً لتدريب استراتيجية يمكن أن تعمل في بيئة جديدة والتفاعل مع الأشياء التي لم يسبق لها مثيل. لكل زوج من البيئة ، ينصح 50 تجريبياً بالجمع.
للتحقق من قابلية التطبيق العالمي لاستراتيجية جمع البيانات ، قام الباحثون بتطبيقها على مهمتين جديدتين: طي المنشفة وفصل الشاحن. تظهر النتائج أن هذه الاستراتيجية يمكنها أيضًا تدريب الاستراتيجيات بقدرات تعميم قوية على هاتين المهمتين الجديدتين.
توضح الدراسة أنه يمكن تعلم استراتيجية المهمة الواحدة التي يمكن نشرها في أي بيئة وكائن من خلال استثمار الوقت والموارد المتواضعة نسبيًا. لدعم جهود الباحثين في هذا الصدد ، أصدر فريق Tsinghua الكود والبيانات والنماذج ، على أمل إلهام المزيد من الأبحاث في هذا المجال وتنفيذ روبوت عالمي يمكنه حل مشاكل العالم المفتوح.
عنوان الورق: https://arxiv.org/pdf/2410.18647
توفر هذه الدراسة إرشادات نظرية مهمة وأساليب عملية لتعلم تقليد الروبوت ، وتضع أساسًا متينًا لبناء نظام ذكي روبوت أكثر تعميماً. يوفر المصدر المفتوح لهذا البحث أيضًا موارد قيمة للباحثين الآخرين لتعزيز تطوير هذا المجال.