RT 2
0.0.3
这是我对 RT-2 背后模型的实现。 RT-2 利用 PALM-E 作为具有视觉编码器和语言主干的主干,其中图像与语言嵌入在同一空间中嵌入和连接。这种架构非常容易构建,但缺乏对统一多模态表示或单独模态表示的深入理解。
点击此处查看论文
RT-2 可以使用 pip 轻松安装:
pip install rt2
RT2
类是一个 PyTorch 模块,它将 PALM-E 模型集成到 RT-2 类中。以下是一些如何使用它的示例:
首先,您需要初始化RT2
类。您可以通过向构造函数提供必要的参数来完成此操作:
import torch
from rt2 . model import RT2
# img: (batch_size, 3, 256, 256)
# caption: (batch_size, 1024)
img = torch . randn ( 1 , 3 , 256 , 256 )
caption = torch . randint ( 0 , 20000 , ( 1 , 1024 ))
# model: RT2
model = RT2 ()
# Run model on img and caption
output = model ( img , caption )
print ( output ) # (1, 1024, 20000)
RT-2 处于视觉、语言和行动的交叉点,为机器人世界提供无与伦比的功能和显着优势。
RT-2 集成了高容量视觉语言模型 (VLM),该模型最初在网络规模数据上进行了预训练,并与来自 RT-2 的机器人数据相集成。 VLM 使用图像作为输入来生成表示自然语言文本的标记序列。为了适应机器人控制,RT-2 输出的动作表示为模型输出中的标记。
RT-2 使用网络和机器人数据进行微调。由此产生的模型解释机器人相机图像并预测机器人要执行的直接动作。从本质上讲,它将视觉和语言模式转换为面向动作的指令,这是机器人控制领域的一项了不起的壮举。
论文中使用的数据集
数据集 | 描述 | 来源 | 训练混合物中的百分比 (RT-2-PaLI-X) | 训练混合物中的百分比 (RT-2-PaLM-E) |
---|---|---|---|---|
网络LI | 跨越 109 种语言的大约 10B 个图像文本对,过滤到得分最高的 10% 跨模式相似性示例,以提供 1B 个训练示例。 | 陈等人。 (2023b),Driess 等人。 (2023) | 不适用 | 不适用 |
情景WebLI | 不用于协同微调 RT-2-PaLI-X。 | 陈等人。 (2023a) | 不适用 | 不适用 |
机器人数据集 | 使用移动操纵机器人收集的演示片段。每个演示都用七种技能之一的自然语言指令进行注释。 | 布罗汉等人。 (2022) | 50% | 66% |
语言表 | 用于训练多个预测任务。 | 林奇等人。 (2022) | 不适用 | 不适用 |
RT-2 的独特功能开辟了众多商业应用:
随时欢迎为 RT-2 做出贡献!请随意在 GitHub 存储库上提出问题或拉取请求。
如有任何疑问或问题,请打开 GitHub 问题或联系 kyegomez。
@inproceedings { RT-2 ,2023,
title = { } ,
author = { Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Xi Chen, Krzysztof Choromanski,
Tianli Ding, Danny Driess, Avinava Dubey, Chelsea Finn, Pete Florence, Chuyuan Fu,
Montse Gonzalez Arenas, Keerthana Gopalakrishnan, Kehang Han, Karol Hausman, Alexander Herzog,
Jasmine Hsu, Brian Ichter, Alex Irpan, Nikhil Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang,
Isabel Leal, Lisa Lee, Tsang-Wei Edward Lee, Sergey Levine, Yao Lu, Henryk Michalewski, Igor Mordatch,
Karl Pertsch, Kanishka Rao, Krista Reymann, Michael Ryoo, Grecia Salazar, Pannag Sanketi,
Pierre Sermanet, Jaspiar Singh, Anikait Singh, Radu Soricut, Huong Tran, Vincent Vanhoucke, Quan Vuong,
Ayzaan Wahid, Stefan Welker, Paul Wohlhart, Jialin Wu, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Tianhe Yu,
and Brianna Zitkovich } ,
year = { 2024 }
}
RT-2 是根据 MIT 许可证提供的。有关详细信息,请参阅许可证文件。