إن تطوير التعلم العميق في مجال التحكم في الروبوتات محدود بسبب عدم وجود أنماط بيانات واسعة النطاق. حقق فريق بحث من جامعة تسينغهوا مؤخرًا اختراقًا من خلال استراتيجية فعالة لجمع البيانات، حيث جمع ما يكفي من البيانات في فترة ما بعد الظهر، محققًا معدل نجاح بنسبة 90٪ لاستراتيجية الروبوت في بيئات جديدة وأشياء جديدة. سيأخذك محرر Downcodes إلى فهم نتائج هذا البحث وقواعد قياس البيانات الكامنة وراءه.
لا يمكن فصل التطور السريع للتعلم العميق عن مجموعات البيانات والنماذج والحسابات واسعة النطاق. في مجالات معالجة اللغة الطبيعية ورؤية الكمبيوتر، اكتشف الباحثون علاقة قانون القوة بين أداء النموذج وحجم البيانات. ومع ذلك، فإن مجال الروبوتات، وخاصة مجال التحكم في الروبوت، لم يضع بعد قواعد مماثلة للقياس.
نشر فريق بحث من جامعة تسينغهوا مؤخرًا ورقة بحثية تستكشف قواعد قياس البيانات في تعلم تقليد الروبوتات، واقترح استراتيجية فعالة لجمع البيانات جمعت ما يكفي من البيانات في فترة ما بعد الظهيرة فقط، مما يجعل الاستراتيجية قادرة على تحقيق معدل نجاح يصل إلى 90٪ تقريبًا على أجهزة جديدة. البيئات والأشياء الجديدة.
قام الباحثون بتقسيم القدرة على التعميم إلى بعدين: تعميم البيئة وتعميم الأشياء، واستخدموا قابضًا محمولًا لجمع بيانات توضيحية بشرية عن بيئات مختلفة وأشياء مختلفة، وقاموا بنمذجة هذه البيانات باستخدام استراتيجية الانتشار. ركز الباحثون في البداية على مهمتين: صب الماء ووضع الماوس، ومن خلال تحليل كيفية تغير أداء الإستراتيجية في البيئات الجديدة أو الكائنات الجديدة مع زيادة عدد بيئات التدريب أو الكائنات، قاموا بتلخيص قواعد قياس البيانات.
تظهر نتائج الأبحاث:
إن قدرة السياسة على التعميم على كائنات جديدة، أو بيئات جديدة، أو كليهما، لها علاقة قانون القوة مع عدد كائنات التدريب، أو بيئات التدريب، أو أزواج كائنات بيئة التدريب، على التوالي.
تعد زيادة تنوع البيئات والكائنات أكثر فعالية من زيادة عدد العروض التوضيحية لكل بيئة أو كائن.
من خلال جمع البيانات في أكبر عدد ممكن من البيئات (على سبيل المثال، 32 بيئة)، باستخدام كائن تشغيل فريد و50 عرضًا توضيحيًا في كل بيئة، يمكن تدريب إستراتيجية ذات قدرة تعميمية قوية (معدل نجاح 90%)، بحيث يمكن تشغيلها في بيئات جديدة وأشياء جديدة.
واستنادا إلى قواعد قياس البيانات هذه، اقترح الباحثون استراتيجية فعالة لجمع البيانات. ويوصون بجمع البيانات في أكبر عدد ممكن من البيئات المختلفة، باستخدام كائن فريد واحد فقط في كل بيئة. عندما يصل العدد الإجمالي لأزواج كائنات البيئة إلى 32، يكون ذلك كافيًا عادةً لتدريب سياسة يمكنها العمل في بيئات جديدة والتفاعل مع كائنات غير مرئية سابقًا. لكل زوج من كائنات البيئة، يوصى بجمع 50 عرضًا تجريبيًا.
للتحقق من قابلية التطبيق العام لاستراتيجية جمع البيانات، طبقها الباحثون على مهمتين جديدتين: طي منشفة وفصل الشاحن. تظهر النتائج أن هذه الإستراتيجية يمكنها أيضًا تدريب الاستراتيجيات ذات القدرة التعميمية القوية على هاتين المهمتين الجديدتين.
توضح هذه الدراسة أنه من خلال استثمار متواضع نسبيًا للوقت والموارد، من الممكن تعلم سياسة المهمة الواحدة التي يمكن نشرها في أي بيئة أو كائن مع النشر الصفري. ولمزيد من دعم جهود الباحثين في هذا المجال، أصدر فريق تسينغهوا الكود والبيانات والنماذج الخاصة بهم على أمل إلهام المزيد من الأبحاث في هذا المجال وتحقيق روبوتات عالمية قادرة في نهاية المطاف على حل مشاكل العالم المفتوح المعقدة.
عنوان الورقة: https://arxiv.org/pdf/2410.18647
يوفر هذا البحث تجربة قيمة لقواعد قياس البيانات في مجال التحكم في الروبوتات، كما توفر استراتيجيات جمع البيانات الفعالة اتجاهات جديدة للبحث المستقبلي. ستعمل الكود والبيانات والنماذج مفتوحة المصدر لفريق جامعة تسينغهوا على تعزيز تطوير هذا المجال وتحقيق روبوتات أكثر قوة للأغراض العامة في نهاية المطاف.