RT 2
0.0.3
這是我對 RT-2 背後模型的實作。 RT-2 利用 PALM-E 作為具有視覺編碼器和語言主幹的主幹,其中圖像與語言嵌入在同一空間中嵌入和連接。這種架構非常容易構建,但缺乏對統一多模態表示或單獨模態表示的深入理解。
點此看論文
RT-2 可以使用 pip 輕鬆安裝:
pip install rt2
RT2
類別是一個 PyTorch 模組,它將 PALM-E 模型整合到 RT-2 類別中。以下是一些如何使用它的範例:
首先,您需要初始化RT2
類別。您可以透過向建構函數提供必要的參數來完成此操作:
import torch
from rt2 . model import RT2
# img: (batch_size, 3, 256, 256)
# caption: (batch_size, 1024)
img = torch . randn ( 1 , 3 , 256 , 256 )
caption = torch . randint ( 0 , 20000 , ( 1 , 1024 ))
# model: RT2
model = RT2 ()
# Run model on img and caption
output = model ( img , caption )
print ( output ) # (1, 1024, 20000)
RT-2 處於視覺、語言和行動的交叉點,為機器人世界提供無與倫比的功能和顯著優勢。
RT-2 整合了高容量視覺語言模型 (VLM),該模型最初在網路規模資料上進行了預訓練,並與來自 RT-2 的機器人資料整合。 VLM 使用圖像作為輸入來產生表示自然語言文字的標記序列。為了適應機器人控制,RT-2 輸出的動作表示為模型輸出中的標記。
RT-2 使用網路和機器人資料進行微調。由此產生的模型解釋機器人相機影像並預測機器人要執行的直接動作。從本質上講,它將視覺和語言模式轉換為面向動作的指令,這是機器人控制領域的一項了不起的壯舉。
論文中使用的數據集
數據集 | 描述 | 來源 | 訓練混合物中的百分比 (RT-2-PaLI-X) | 訓練混合物中的百分比 (RT-2-PaLM-E) |
---|---|---|---|---|
網路LI | 跨越 109 種語言的大約 10B 個圖像文字對,過濾到得分最高的 10% 跨模式相似性範例,以提供 1B 個訓練範例。 | 陳等人。 (2023b),Driess 等人。 (2023) | 不適用 | 不適用 |
情景WebLI | 不用於協同微調 RT-2-PaLI-X。 | 陳等人。 (2023a) | 不適用 | 不適用 |
機器人數據集 | 使用移動操縱機器人收集的示範片段。每個演示都以七種技能之一的自然語言指令進行註釋。 | 布羅漢等人。 (2022) | 50% | 66% |
語言表 | 用於訓練多個預測任務。 | 林奇等人。 (2022) | 不適用 | 不適用 |
RT-2 的獨特功能開啟了眾多商業應用:
隨時歡迎為 RT-2 做出貢獻!請隨意在 GitHub 儲存庫上提出問題或拉取請求。
如有任何疑問或問題,請開啟 GitHub 問題或聯絡 kyegomez。
@inproceedings { RT-2 ,2023,
title = { } ,
author = { Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Xi Chen, Krzysztof Choromanski,
Tianli Ding, Danny Driess, Avinava Dubey, Chelsea Finn, Pete Florence, Chuyuan Fu,
Montse Gonzalez Arenas, Keerthana Gopalakrishnan, Kehang Han, Karol Hausman, Alexander Herzog,
Jasmine Hsu, Brian Ichter, Alex Irpan, Nikhil Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang,
Isabel Leal, Lisa Lee, Tsang-Wei Edward Lee, Sergey Levine, Yao Lu, Henryk Michalewski, Igor Mordatch,
Karl Pertsch, Kanishka Rao, Krista Reymann, Michael Ryoo, Grecia Salazar, Pannag Sanketi,
Pierre Sermanet, Jaspiar Singh, Anikait Singh, Radu Soricut, Huong Tran, Vincent Vanhoucke, Quan Vuong,
Ayzaan Wahid, Stefan Welker, Paul Wohlhart, Jialin Wu, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Tianhe Yu,
and Brianna Zitkovich } ,
year = { 2024 }
}
RT-2 是根據 MIT 許可證提供的。有關詳細信息,請參閱許可證文件。