ロボット操作の分野におけるデータの規模に関する研究は、ロボット学習の分野で常に大きな課題でした。既存の研究は、自然言語処理とコンピュータービジョンの分野に焦点を当てていますが、ロボット操作の分野に関する研究は比較的少ないです。この記事では、Tsinghua Universityの研究チームの最新の研究結果を紹介します。
深い学習の急速な発展は、大規模なデータセット、モデル、および計算量とは分離できません。自然言語処理とコンピュータービジョンの分野では、研究者はモデルのパフォーマンスとデータスケールの間の電力法関係を発見しました。ただし、ロボットの分野、特にロボット操作は、同様の規模の法則をまだ確立していません。
Tsinghua Universityの研究チームは最近、ロボット模倣学習のデータの規模を探索する論文を発行し、1つの午後に十分なデータを収集する効率的なデータ収集戦略を提案しました。環境と新しいオブジェクト。
研究者は、一般化能力を環境一般化とオブジェクトの一般化の2つの次元に分割し、ハンドヘルドジョーを使用して、さまざまな環境と異なるオブジェクトに関する人間のデモデータを収集し、拡散戦略を使用してこれらのデータをモデル化しました。研究者は、最初に、水とマウスの配置の2つのタスクに焦点を当てました。
研究結果は、次のことを示しています。
新しいオブジェクト、新しい環境、またはその両方に対する戦略の一般化能力は、それぞれトレーニングオブジェクトの数、トレーニング環境、またはトレーニング環境オブジェクトのペアに関連するパワーローです。
環境とオブジェクトの多様性を高めることは、各環境またはオブジェクトのデモの数を増やすよりも効果的です。
できるだけ多くの環境(たとえば、32の環境など)でデータを収集し、各環境でユニークな操作オブジェクトと50のデモンストレーションを使用して、強力な一般化能力(90%の成功率)で戦略をトレーニングして、新しいもので動作できるようにすることができます。環境と新しいオブジェクト。
これらのデータスケール法に基づいて、研究者は効率的なデータ収集戦略を提案しています。彼らは、各環境に1つの一意のオブジェクトのみを使用して、できるだけ多くの異なる環境でデータを収集することを推奨しています。 環境オブジェクトのペアの総数が32に達すると、通常、新しい環境で動作し、以前に見たことのないオブジェクトと対話できる戦略をトレーニングするのに十分です。各環境オブジェクトペアについて、収集するには50のデモが推奨されます。
データ収集戦略の普遍的な適用性を検証するために、研究者はそれを2つの新しいタスクに適用しました:タオルの折りたたみ、充電器のプラグを抜きます。結果は、この戦略がこれら2つの新しいタスクで強力な一般化能力を備えた戦略をトレーニングできることを示しています。
この調査では、比較的控えめな時間とリソースを投資することにより、あらゆる環境やオブジェクトに展開できるシングルタスク戦略を学ぶことができます。 この点で研究者の努力をさらにサポートするために、Tsinghuaチームはコード、データ、モデルをリリースし、現場でのさらなる研究を促し、最終的に複雑でオープンワールドの問題を解決できる普遍的なロボットを実装したいと考えています。
紙の住所:https://arxiv.org/pdf/2410.18647
この研究は、ロボット模倣学習のための重要な理論的ガイダンスと実用的な方法を提供し、より一般化されたロボットインテリジェントシステムを構築するための強固な基盤を築きます。 この研究結果のオープンソースは、他の研究者が分野の開発を促進するための貴重なリソースも提供します。