これは、RT-2 の背後にあるモデルの実装です。 RT-2 は、Vision エンコーダーと言語バックボーンを備えたバックボーンとして PALM-E を利用しており、言語の埋め込みと同じ空間に画像が埋め込まれ、連結されます。このアーキテクチャは構築するのが非常に簡単ですが、統合されたマルチモーダル表現または個々のモダリティ表現の両方について深い理解が不足しているという問題があります。
論文についてはここをクリックしてください
RT-2 は pip を使用して簡単にインストールできます。
pip install rt2
RT2
クラスは、PALM-E モデルを RT-2 クラスに統合する PyTorch モジュールです。使用方法の例をいくつか示します。
まず、 RT2
クラスを初期化する必要があります。これを行うには、コンストラクターに必要なパラメーターを指定します。
import torch
from rt2 . model import RT2
# img: (batch_size, 3, 256, 256)
# caption: (batch_size, 1024)
img = torch . randn ( 1 , 3 , 256 , 256 )
caption = torch . randint ( 0 , 20000 , ( 1 , 1024 ))
# model: RT2
model = RT2 ()
# Run model on img and caption
output = model ( img , caption )
print ( output ) # (1, 1024, 20000)
RT-2 はビジョン、言語、アクションの交差点に位置し、比類のない機能とロボット工学の世界に大きなメリットをもたらします。
RT-2 は、最初に Web スケール データで事前トレーニングされた大容量のビジョン言語モデル (VLM) を、RT-2 からのロボティクス データと統合します。 VLM は、画像を入力として使用して、自然言語テキストを表す一連のトークンを生成します。これをロボット制御に適応させるために、RT-2 はモデルの出力でトークンとして表されるアクションを出力します。
RT-2 は、Web データとロボティクス データの両方を使用して微調整されています。結果として得られるモデルは、ロボットのカメラ画像を解釈し、ロボットが実行する直接のアクションを予測します。本質的には、視覚パターンと言語パターンをアクション指向の命令に変換するものであり、ロボット制御の分野における驚くべき偉業です。
論文で使用されたデータセット
データセット | 説明 | ソース | トレーニング混合物中のパーセンテージ (RT-2-PaLI-X) | トレーニング混合物中のパーセンテージ (RT-2-PaLM-E) |
---|---|---|---|---|
WebLI | 109 言語にわたる約 100 億の画像とテキストのペアが、クロスモーダル類似性スコアの上位 10% の例にフィルタリングされ、10 億のトレーニング例が提供されます。 | チェンら。 (2023b)、Driess et al。 (2023年) | 該当なし | 該当なし |
エピソード WebLI | RT-2-PaLI-X の共同微調整では使用されません。 | チェンら。 (2023a) | 該当なし | 該当なし |
ロボット工学データセット | 移動操作ロボットによる実証エピソードを集めました。各デモンストレーションには、7 つのスキルのいずれかによる自然言語の指示が注釈として付けられます。 | ブローハンら。 (2022年) | 50% | 66% |
言語テーブル | いくつかの予測タスクのトレーニングに使用されます。 | リンチら。 (2022年) | 該当なし | 該当なし |
RT-2 のユニークな機能により、数多くの商用アプリケーションが可能になります。
RT-2 への貢献はいつでも大歓迎です! GitHub リポジトリで気軽にイシューやプル リクエストを開いてください。
質問や問題がある場合は、GitHub の問題を開くか、kyegomez までご連絡ください。
@inproceedings { RT-2 ,2023,
title = { } ,
author = { Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Xi Chen, Krzysztof Choromanski,
Tianli Ding, Danny Driess, Avinava Dubey, Chelsea Finn, Pete Florence, Chuyuan Fu,
Montse Gonzalez Arenas, Keerthana Gopalakrishnan, Kehang Han, Karol Hausman, Alexander Herzog,
Jasmine Hsu, Brian Ichter, Alex Irpan, Nikhil Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang,
Isabel Leal, Lisa Lee, Tsang-Wei Edward Lee, Sergey Levine, Yao Lu, Henryk Michalewski, Igor Mordatch,
Karl Pertsch, Kanishka Rao, Krista Reymann, Michael Ryoo, Grecia Salazar, Pannag Sanketi,
Pierre Sermanet, Jaspiar Singh, Anikait Singh, Radu Soricut, Huong Tran, Vincent Vanhoucke, Quan Vuong,
Ayzaan Wahid, Stefan Welker, Paul Wohlhart, Jialin Wu, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Tianhe Yu,
and Brianna Zitkovich } ,
year = { 2024 }
}
RT-2 は MIT ライセンスに基づいて提供されます。詳細については、LICENSE ファイルを参照してください。