最近、抱き合っている顔と物理的知能は、自然言語コマンドを物理的行動に直接変換する最初の基本モデルである「PI0」(PI0 "(PI-Zero)を共同で発売しました。この革新的な発売は広範囲にわたる注目を集めており、Hugging Faceの主任研究科学者であるRemi Cadeneは、ソーシャルメディアで「PI0は自然言語コマンドを自律行動に変換できる最も高度な視覚言語アクションモデルである」と発表しました。
「PI0」の発売は、テキスト生成の分野におけるChatGPTの影響と同様に、ロボット工学の分野の大きな変化を示しています。もともとは物理的なインテリジェンスによって開発され、現在はFaceのLerobotプラットフォームを抱き締めることで利用できるようになったこのモデルは、折りたたみ衣服、詰め物のテーブル、パッケージング食料品などの複雑なタスクを実行できます。
「現在のロボットは、繰り返しのアクションに焦点を当てた狭いドメインの専門家である傾向がありますが、「PI0」の導入により、ロボットはユーザーの命令を介してタスクを学習および実行でき、プログラミングの複雑さは単純な音声に縮小されます。
「PI0」テクノロジーの中核は、重要な技術的ブレークスルーです。このモデルは、7つの異なるロボットプラットフォームと68の一意のタスクからのデータを訓練し、細かい操作から複雑なマルチステップ手順に至るまでのタスクを処理できるようにします。同時に、新しいフローマッチングテクノロジーを使用して、毎秒50回でスムーズでリアルタイムのアクション軌跡を生成できるようにし、実際のアプリケーションで高い精度と適応性を実現します。
これに基づいて、開発チームは「PI0 -FAST」バージョンも立ち上げました。これは、新しいマーキングスキーム - 周波数空間アクションシーケンスマーカー(FAST)を組み合わせて、トレーニング速度を5回増加させ、一般化能力も改善されました。異なる環境とロボットタイプの間。
この技術の導入は、業界に大きな影響を与えます。メーカーは、単純な音声コマンドでロボットを再プログラムできますが、倉庫は必要に応じて、より柔軟な自動化システムを展開できます。また、中小企業はロボット工学に簡単にアクセスでき、プログラミングと展開の障壁を下げます。
ただし、「PI0」の大きな進歩にもかかわらず、まだいくつかの課題があります。このモデルは、非常に複雑なタスクを扱う際に困難に遭遇する場合があり、かなりのコンピューティングリソースが必要です。さらに、産業環境での信頼性と安全性の問題は依然として注意が必要です。
「PI0」の発売は、人工知能産業の急速な発展の重要な時期に来ており、言語モデルと物理世界の間の最初の成功した試みを表しています。テクノロジーが成熟し続けるにつれて、将来のロボットはより会話的で適応性があり、アクセスしやすくなり、家、病院、中小企業などの分野でのロボットの広範な使用を促進します。
PI0:https://huggingface.co/lerobot/pi0
キーポイント:
PI0は、自然言語コマンドを物理的なアクションに変換する最初のロボットモデルであり、従来のプログラミング方法を変更します。
このモデルは、マルチプラットフォームとマルチタスクによってトレーニングされており、複雑な日常業務を実行し、ロボット使用のしきい値を下げることができます。
PI0-FASTバージョンは、トレーニング速度と一般化機能を改善し、産業自動化の促進を加速することが期待されています。
「PI0」テクノロジーの発売により、ロボットの分野は新しい変化を案内し、将来よりインテリジェントで便利になります。