Downcodes の編集者は、NVIDIA の研究チームが大きな進歩を遂げ、HOVER (Humanoid Multi-Function Controller) と呼ばれる新しいニューラル ネットワークを開発したことを知りました。このニューラル ネットワークには 150 万個のパラメータしかありませんが、人型ロボットの動作と動作を効率的に調整することができ、その効率的なトレーニング方法と強力な機能が目を引きます。 HOVER の登場は、人型ロボット制御技術の大きな前進を示し、将来のロボット技術の開発に新たな可能性をもたらします。
NVIDIA のシニアリサーチマネージャーであるジム・ファン氏は、「すべての基本モデルが巨大である必要はありません。私たちがトレーニングした 150 万パラメーターのニューラル ネットワークは、ヒューマノイド ロボットの本体を制御するように設計されています。」と彼はさらに、HOVER が人間の動きをキャプチャできると説明しました。潜在意識のプロセスを利用して、ロボットが面倒なプログラミングを行わずに複雑なタスクを実行できるようにします。同氏は、「人間が歩くとき、バランスを保つとき、手足を柔軟に制御するとき、多くの潜在意識の処理が必要になる」と述べた。
トレーニング プロセス中、HOVER は、物理シミュレーションをリアルタイムの 10,000 倍高速化できる NVIDIA の Isaac シミュレーション プラットフォームを使用しました。
Jim Fan 氏は、このモデルは仮想環境でのトレーニングに 1 年かかり、実際にはリアルタイムで約 50 分しかかからず、単一の GPU で完了したことを明らかにしました。同氏は、この効率的なトレーニングにより、微調整を必要とせずにニューラル ネットワークを現実世界のアプリケーションにスムーズに移行できると述べました。
HOVER は、頭と手の姿勢制御に XR デバイス (Apple の Vision Pro など) を使用したり、モーション キャプチャや RGB カメラを通じて全身の姿勢を取得したり、さらには外骨格の角度からジョイントを取得するか、ジョイスティックからルート速度コマンドを取得します。ファン氏は、HOVER がさまざまな入力デバイスを制御するロボットに統合インターフェイスを提供し、それによってトレーニング用の遠隔操作データの収集が容易になることを強調しました。
さらに、HOVER は上流の視覚言語アクション モデルと統合されており、移動コマンドを高周波で低レベルのモーター信号に変換できます。このモデルは、Isaac でシミュレートできるあらゆる人型ロボットと互換性があり、ユーザーはロボットに簡単に命を吹き込むことができます。
今年の初めには、NVIDIA も人型ロボット用に設計された一般的なベース モデルである GR00T と呼ばれるプロジェクトを発表しました。 GR00T (Generalist Robot00Technology) によって駆動されるロボットは、自然言語を理解し、動きを観察することで人間の動きを模倣することができ、現実世界で効果的に対話するために必要な調整、柔軟性、その他のスキルを迅速に学習することができます。
論文URL: https://arxiv.org/pdf/2410.21229
HOVER の出現は、人型ロボット制御の分野に新たな希望をもたらし、その効率的なトレーニング方法と強力な機能は、将来のロボット技術がよりインテリジェントで人間らしいものになることを示しています。この技術革新により、人型ロボットのさまざまな分野での応用が大きく進むことになり、今後のさらなる発展が期待されます。