ロボット制御分野における深層学習の開発は、大規模なデータ パターンが不足しているために制限されています。清華大学の研究チームは最近、効率的なデータ収集戦略により、わずか 1 日の午後で十分なデータを収集し、新しい環境と新しい物体におけるロボット戦略の成功率 90% を達成しました。 Downcodes の編集者は、この調査結果とその背後にあるデータ スケーリング ルールを理解できるようにします。
ディープラーニングの急速な発展は、大規模なデータセット、モデル、計算と切り離すことができません。自然言語処理とコンピューター ビジョンの分野では、研究者はモデルのパフォーマンスとデータ サイズの間にべき乗則の関係を発見しました。しかし、ロボット工学の分野、特にロボット制御の分野では、同様の規模のルールがまだ確立されていません。
清華大学の研究チームは最近、ロボット模倣学習におけるデータスケーリングのルールを調査する論文を発表し、わずか 1 日の午後で十分なデータを収集する効率的なデータ収集戦略を提案しました。これにより、この戦略は新しいロボットで約 90% の成功率を達成できます。環境と新しいオブジェクト。
研究者らは汎化能力を環境汎化と物体汎化の2つの次元に分け、ハンドヘルドグリッパーを使用してさまざまな環境やさまざまな物体に関する人間のデモンストレーションデータを収集し、拡散戦略を使用してこれらのデータをモデル化した。研究者らはまず、水を注ぐこととマウスの配置という 2 つのタスクに焦点を当て、トレーニング環境やオブジェクトの数の増加に伴って新しい環境や新しいオブジェクトに対する戦略のパフォーマンスがどのように変化するかを分析することで、データ スケーリングのルールを要約しました。
研究結果は次のことを示しています。
新しいオブジェクト、新しい環境、またはその両方に一般化するポリシーの機能は、それぞれトレーニング オブジェクト、トレーニング環境、またはトレーニング環境とオブジェクトのペアの数とべき乗則の関係があります。
それぞれの環境やオブジェクトのデモンストレーションの数を増やすよりも、環境やオブジェクトの種類を増やす方が効果的です。
できるだけ多くの環境(例えば 32 環境)でデータを収集し、独自の操作オブジェクトと各環境で 50 のデモンストレーションを実行することで、汎化能力の高い戦略(成功率 90%)を学習し、実行できるようにすることができます。新しい環境と新しいオブジェクトについて。
これらのデータ スケーリング ルールに基づいて、研究者らは効率的なデータ収集戦略を提案しました。彼らは、各環境で一意のオブジェクトを 1 つだけ使用して、できるだけ多くの異なる環境でデータを収集することを推奨しています。 環境とオブジェクトのペアの合計が 32 に達すると、通常は、新しい環境で動作し、これまでに見たことのないオブジェクトと対話できるポリシーをトレーニングするだけで十分です。環境とオブジェクトのペアごとに、50 個のデモを収集することをお勧めします。
データ収集戦略の一般的な適用可能性を検証するために、研究者らはそれを 2 つの新しいタスク (タオルを折りたたむことと充電器のプラグを抜く) に適用しました。結果は、この戦略がこれら 2 つの新しいタスクに関して強力な一般化能力を備えた戦略を訓練できることを示しています。
この調査は、比較的控えめな時間とリソースの投資で、ゼロショット展開であらゆる環境やオブジェクトに展開できるシングルタスク ポリシーを学習できることを示しています。 この分野における研究者の取り組みをさらに支援するために、清華大学のチームは、この分野でのさらなる研究を刺激し、最終的には複雑なオープンワールドの問題を解決できる汎用ロボットを実現することを期待して、コード、データ、モデルを公開しました。
論文アドレス: https://arxiv.org/pdf/2410.18647
この研究は、ロボット制御分野におけるデータスケーリングルールに関する貴重な経験を提供し、効率的なデータ収集戦略も将来の研究に新たな方向性を提供します。清華大学チームのオープンソース コード、データ、モデルは、この分野の開発をさらに促進し、最終的にはより強力な汎用ロボットを実現します。