이것은 RT-2 뒤에 있는 모델을 구현한 것입니다. RT-2는 언어 내장과 동일한 공간에 이미지가 내장되고 연결되는 Vision 인코더 및 언어 백본을 갖춘 백본으로 PALM-E를 활용합니다. 이 아키텍처는 설계하기가 매우 쉽지만 통합된 다중 모달 표현이나 개별 양식 표현에 대한 깊은 이해가 부족하다는 문제가 있습니다.
논문을 보려면 여기를 클릭하세요.
RT-2는 pip를 사용하여 쉽게 설치할 수 있습니다.
pip install rt2
RT2
클래스는 PALM-E 모델을 RT-2 클래스에 통합하는 PyTorch 모듈입니다. 사용 방법에 대한 몇 가지 예는 다음과 같습니다.
먼저 RT2
클래스를 초기화해야 합니다. 생성자에 필요한 매개변수를 제공하여 이를 수행할 수 있습니다.
import torch
from rt2 . model import RT2
# img: (batch_size, 3, 256, 256)
# caption: (batch_size, 1024)
img = torch . randn ( 1 , 3 , 256 , 256 )
caption = torch . randint ( 0 , 20000 , ( 1 , 1024 ))
# model: RT2
model = RT2 ()
# Run model on img and caption
output = model ( img , caption )
print ( output ) # (1, 1024, 20000)
RT-2는 비전, 언어 및 행동의 교차점에 위치하여 로봇 공학 세계에 탁월한 기능과 상당한 이점을 제공합니다.
RT-2는 초기에 웹 규모 데이터에 대해 사전 훈련된 대용량 VLM(Vision-Language 모델)을 RT-2의 로봇 데이터와 통합합니다. VLM은 이미지를 입력으로 사용하여 자연어 텍스트를 나타내는 일련의 토큰을 생성합니다. 이를 로봇 제어에 적용하기 위해 RT-2는 모델 출력에서 토큰으로 표시되는 동작을 출력합니다.
RT-2는 웹과 로봇공학 데이터를 모두 사용하여 미세 조정됩니다. 결과 모델은 로봇 카메라 이미지를 해석하고 로봇이 실행할 직접적인 동작을 예측합니다. 본질적으로 시각적 패턴과 언어 패턴을 행동 중심 지침으로 변환하는데, 이는 로봇 제어 분야에서 놀라운 성과입니다.
논문에 사용된 데이터 세트
데이터세트 | 설명 | 원천 | 훈련 혼합물의 백분율(RT-2-PaLI-X) | 훈련 혼합물의 백분율(RT-2-PaLM-E) |
---|---|---|---|---|
웹리 | 109개 언어에 걸쳐 약 100억 개의 이미지-텍스트 쌍이 상위 10% 점수의 교차 모달 유사성 예시로 필터링되어 10억 개의 학습 예시를 제공합니다. | Chenet al. (2023b), Driess et al. (2023) | 해당 없음 | 해당 없음 |
에피소드 WebLI | 공동 미세 조정 RT-2-PaLI-X에는 사용되지 않습니다. | Chenet al. (2023a) | 해당 없음 | 해당 없음 |
로봇공학 데이터세트 | 이동형 조작로봇을 활용한 시연 에피소드를 모아봤습니다. 각 시연에는 7가지 기술 중 하나에 대한 자연어 교육이 주석으로 추가됩니다. | Brohanet al. (2022) | 50% | 66% |
언어표 | 여러 예측 작업에 대한 교육에 사용됩니다. | 린치 등. (2022) | 해당 없음 | 해당 없음 |
RT-2의 고유한 기능은 수많은 상용 응용 프로그램을 열어줍니다.
RT-2에 대한 기여는 언제나 환영합니다! GitHub 리포지토리에서 자유롭게 이슈를 열거나 풀 요청을 하세요.
질문이나 문제가 있는 경우 GitHub 문제를 열거나 kyegomez에 문의하세요.
@inproceedings { RT-2 ,2023,
title = { } ,
author = { Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Xi Chen, Krzysztof Choromanski,
Tianli Ding, Danny Driess, Avinava Dubey, Chelsea Finn, Pete Florence, Chuyuan Fu,
Montse Gonzalez Arenas, Keerthana Gopalakrishnan, Kehang Han, Karol Hausman, Alexander Herzog,
Jasmine Hsu, Brian Ichter, Alex Irpan, Nikhil Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang,
Isabel Leal, Lisa Lee, Tsang-Wei Edward Lee, Sergey Levine, Yao Lu, Henryk Michalewski, Igor Mordatch,
Karl Pertsch, Kanishka Rao, Krista Reymann, Michael Ryoo, Grecia Salazar, Pannag Sanketi,
Pierre Sermanet, Jaspiar Singh, Anikait Singh, Radu Soricut, Huong Tran, Vincent Vanhoucke, Quan Vuong,
Ayzaan Wahid, Stefan Welker, Paul Wohlhart, Jialin Wu, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Tianhe Yu,
and Brianna Zitkovich } ,
year = { 2024 }
}
RT-2는 MIT 라이선스에 따라 제공됩니다. 자세한 내용은 LICENSE 파일을 참조하세요.