機器人操控領域的深度學習發展受限於缺乏規模化的資料規律。清華大學研究團隊近期取得突破,透過高效的數據收集策略,僅用一個下午的時間就收集到足夠的數據,實現了機器人策略在90%的新環境和新物體上的成功率。 Downcodes小編帶您了解這項研究的成果及其背後的資料規模化規律。
深度學習的快速發展離不開規模化的資料集、模型和計算量。在自然語言處理和電腦視覺領域,研究人員已經發現了模型效能與資料規模之間存在冪律關係。然而,機器人領域,特別是機器人操控領域,尚未建立類似的規模化規律。
清華大學的研究團隊最近發表了一篇論文,探討了機器人模仿學習中的數據規模化規律,並提出了一種高效的數據收集策略,僅用一個下午的時間就收集了足夠的數據,使得策略能夠在新環境和新物件上實現約90% 的成功率。
研究人員將泛化能力分為環境泛化和物體泛化兩個維度,並使用手持夾爪在各種環境和不同物體上收集人類演示數據,並使用擴散策略對這些數據進行建模。研究人員首先關注了倒水和滑鼠放置兩個任務,透過分析策略在新環境或新物體上的表現如何隨著訓練環境或物件數量的增加而變化,總結出資料規模化規律。
研究結果顯示:
策略對新物體、新環境或兩者的泛化能力,分別與訓練物體、訓練環境或訓練環境-物體對的數量呈冪律關係。
增加環境和物體的多樣性比增加每個環境或物體的演示數量更有效。
在盡可能多的環境中收集資料(例如32個環境),每個環境中都有一個獨特的操作對象和50個演示,就可以訓練出一個泛化能力強的策略(成功率90%),使其能夠在新環境和新物體上運作。
基於這些資料規模化規律,研究人員提出了一種高效率的資料收集策略。他們建議在盡可能多的不同環境中收集數據,每個環境中只使用一個獨特的物件。 當環境-物體對的總數達到32個時,通常足以訓練出一個能夠在新環境中操作並與以前未見過的物體互動的策略。對於每個環境-物體對,建議收集50個演示。
為了驗證資料收集策略的普遍適用性,研究人員將其應用於兩個新任務:折疊毛巾和拔掉充電器。結果表明,該策略同樣能夠在這兩個新任務上訓練出泛化能力強的策略。
該研究表明,只需投入相對適度的時間和資源,就可以學習到能夠零樣本部署到任何環境和物件的單一任務策略。 為了進一步支持研究人員在這方面的努力,清華團隊發布了他們的程式碼、數據和模型,希望能夠啟發該領域的進一步研究,最終實現能夠解決複雜、開放世界問題的通用機器人。
論文網址:https://arxiv.org/pdf/2410.18647
這項研究為機器人操控領域的資料規模化規律提供了寶貴的經驗,高效的資料收集策略也為未來的研究提供了新的方向。清華大學團隊的開源程式碼、數據和模型,將進一步推動該領域的發展,最終實現更強大的通用機器人。