Perkembangan pembelajaran mendalam di bidang pengendalian robot dibatasi oleh kurangnya pola data berskala besar. Sebuah tim peneliti dari Universitas Tsinghua baru-baru ini membuat terobosan. Melalui strategi pengumpulan data yang efisien, mereka mengumpulkan cukup data hanya dalam satu sore, mencapai tingkat keberhasilan 90% untuk strategi robot di lingkungan dan objek baru. Editor Downcodes akan membawa Anda memahami hasil penelitian ini dan aturan penskalaan data di baliknya.
Pesatnya perkembangan deep learning tidak terlepas dari kumpulan data, model, dan perhitungan berskala besar. Di bidang pemrosesan bahasa alami dan visi komputer, para peneliti telah menemukan hubungan hukum antara kinerja model dan ukuran data. Namun bidang robotika, khususnya bidang pengendalian robot, belum menetapkan aturan skala serupa.
Sebuah tim peneliti dari Universitas Tsinghua baru-baru ini menerbitkan sebuah makalah yang mengeksplorasi aturan penskalaan data dalam pembelajaran imitasi robot, dan mengusulkan strategi pengumpulan data yang efisien yang mengumpulkan cukup banyak data hanya dalam satu sore, menjadikan strategi tersebut Mampu mencapai tingkat keberhasilan sekitar 90% pada yang baru lingkungan dan objek baru.
Para peneliti membagi kemampuan generalisasi menjadi dua dimensi: generalisasi lingkungan dan generalisasi objek, dan menggunakan gripper genggam untuk mengumpulkan data demonstrasi manusia pada berbagai lingkungan dan objek yang berbeda, dan memodelkan data tersebut menggunakan strategi difusi. Para peneliti pertama-tama berfokus pada dua tugas: menuangkan air dan penempatan mouse. Dengan menganalisis bagaimana kinerja strategi pada lingkungan baru atau objek baru berubah seiring bertambahnya jumlah lingkungan atau objek pelatihan, mereka merangkum aturan penskalaan data.
Hasil penelitian menunjukkan:
Kemampuan suatu kebijakan untuk menggeneralisasi objek baru, lingkungan baru, atau keduanya, mempunyai hubungan hukum kekuatan dengan jumlah masing-masing objek pelatihan, lingkungan pelatihan, atau pasangan objek lingkungan pelatihan.
Meningkatkan variasi lingkungan dan objek lebih efektif daripada meningkatkan jumlah demonstrasi setiap lingkungan atau objek.
Dengan mengumpulkan data di sebanyak mungkin lingkungan (misalnya 32 lingkungan), dengan objek operasi yang unik dan 50 demonstrasi di setiap lingkungan, strategi dengan kemampuan generalisasi yang kuat (tingkat keberhasilan 90%) dapat dilatih, sehingga dapat dijalankan. pada lingkungan baru dan objek baru.
Berdasarkan aturan penskalaan data tersebut, peneliti mengusulkan strategi pengumpulan data yang efisien. Mereka merekomendasikan pengumpulan data di sebanyak mungkin lingkungan berbeda, hanya menggunakan satu objek unik di setiap lingkungan. Ketika jumlah total pasangan lingkungan-objek mencapai 32, biasanya cukup untuk melatih kebijakan yang dapat beroperasi di lingkungan baru dan berinteraksi dengan objek yang sebelumnya tidak terlihat. Untuk setiap pasangan lingkungan-objek, disarankan untuk mengumpulkan 50 demo.
Untuk memverifikasi penerapan strategi pengumpulan data secara umum, para peneliti menerapkannya pada dua tugas baru: melipat handuk dan mencabut pengisi daya. Hasilnya menunjukkan bahwa strategi ini juga dapat melatih strategi dengan kemampuan generalisasi yang kuat pada dua tugas baru tersebut.
Studi ini menunjukkan bahwa dengan investasi waktu dan sumber daya yang relatif sederhana, dimungkinkan untuk mempelajari kebijakan tugas tunggal yang dapat diterapkan pada lingkungan dan objek apa pun dengan penerapan zero-shot. Untuk lebih mendukung upaya para peneliti di bidang ini, tim Tsinghua merilis kode, data, dan model mereka dengan harapan dapat menginspirasi penelitian lebih lanjut di bidang ini dan pada akhirnya mewujudkan robot universal yang mampu memecahkan masalah-masalah dunia terbuka yang kompleks.
Alamat makalah: https://arxiv.org/pdf/2410.18647
Penelitian ini memberikan pengalaman berharga bagi aturan penskalaan data di bidang pengendalian robot, dan strategi pengumpulan data yang efisien juga memberikan arahan baru untuk penelitian di masa depan. Kode, data, dan model sumber terbuka dari tim Universitas Tsinghua akan semakin mendorong pengembangan bidang ini dan pada akhirnya menghasilkan robot serba guna yang lebih kuat.