Google は Gemini AI を使用してロボットを訓練し、ナビゲーションとタスク完了機能を向上させています

著者：Eve Cole 更新時間：2024-12-08 10:48:01

Downcodes の編集者は、Google がロボットのナビゲーションとタスク実行機能を向上させるために Gemini AI を使用していることを知りました。 DeepMind チームの最新の研究では、Gemini 1.5 Pro の長いコンテキストウィンドウ機能により、ユーザーと RT-2 ロボット間の自然言語対話が大幅に改善されることが示されています。この技術的進歩により、ロボットはビデオを見て環境を理解し、指示に従ってユーザーを充電のための電源ソケットに誘導するなどの複雑なタスクを完了できるようになり、ロボット工学の分野における人工知能の大きな可能性が実証されました。

Google は、ナビゲーションとタスクの完了を向上させるために、Gemini AI を使用してロボットをトレーニングしています。

新しい研究論文の中で、DeepMind Robotics チームは、Gemini1.5Pro の長いコンテキストウィンドウを使用して、ユーザーが自然言語命令を使用して RT-2 ロボットと対話しやすくする方法を詳細に説明しています。研究者らは、Gemini1.5Proを使用して指定されたエリアのビデオツアーに参加することで、ロボットにビデオを「見て」もらい環境を理解させ、ロボットが観察した内容に基づいてコマンドを実行できるようにした（ユーザーをパワーに誘導するなど）。充電用のコンセント。

DeepMindによると、Geminiを搭載したロボットは9,000平方フィート以上の動作エリアで50以上のユーザー命令を90％の成功率で実行することに成功したという。

さらに、研究者らは、Gemini1.5Pro を使用すると、ロボットがナビゲーションだけでなく指示を完了する方法を計画できることも発見しました。たとえば、机の上にコーラの缶がたくさんあるユーザーがロボットに、好きな飲み物はあるかどうか尋ねると、Gemini はロボットに冷蔵庫に行って確認するように指示し、その結果をユーザーに報告します。ディープマインドはこれらの結果をさらに調査すると述べた。

研究論文によると、Googleが提供するビデオデモンストレーションは印象的だが、ロボットがこれらの命令を処理するのに10～30秒かかるという。私たちがより高度な環境マッピングロボットと家を共有するまでにはしばらく時間がかかるかもしれませんが、少なくともこれらのロボットは、私たちが紛失した鍵や財布を見つけるのを手伝ってくれるかもしれません。

ハイライト:

Gemini AI はロボットを訓練してナビゲーションとタスク完了の能力を向上させます

Gemini1.5Pro により、ロボットは自然言語命令を実行できるようになります。

Gemini により、ロボットはナビゲーションを超えて指示を計画し、実行できるようになることが研究で判明

この研究結果は、将来のロボット技術の急速な発展を予告するものであり、Gemini AI の応用によりロボットの知能レベルが大幅に向上し、人間の生活により良いサービスを提供できるようになります。技術的なボトルネックはまだいくつかありますが、近い将来、より高度なロボットが私たちの生活に入り込み、より便利になると信じています。 Downcodes の編集者は、この分野の最新の動向に今後も注目していきます。