RT 2 다운로드 - RT 2 소스 코드 다운로드

RT 2

AI 소스 코드

0.0.3

다운로드

다중 양식

Robotic Transformer 2(RT-2): 비전-언어-액션 모델

RT gif

이것은 RT-2 뒤에 있는 모델을 구현한 것입니다. RT-2는 언어 내장과 동일한 공간에 이미지가 내장되고 연결되는 Vision 인코더 및 언어 백본을 갖춘 백본으로 PALM-E를 활용합니다. 이 아키텍처는 설계하기가 매우 쉽지만 통합된 다중 모달 표현이나 개별 양식 표현에 대한 깊은 이해가 부족하다는 문제가 있습니다.

논문을 보려면 여기를 클릭하세요.

설치

RT-2는 pip를 사용하여 쉽게 설치할 수 있습니다.

pip install rt2

용법

RT2 클래스는 PALM-E 모델을 RT-2 클래스에 통합하는 PyTorch 모듈입니다. 사용 방법에 대한 몇 가지 예는 다음과 같습니다.

초기화

먼저 RT2 클래스를 초기화해야 합니다. 생성자에 필요한 매개변수를 제공하여 이를 수행할 수 있습니다.

 import torch
from rt2 . model import RT2

# img: (batch_size, 3, 256, 256)
# caption: (batch_size, 1024)
img = torch . randn ( 1 , 3 , 256 , 256 )
caption = torch . randint ( 0 , 20000 , ( 1 , 1024 ))

# model: RT2
model = RT2 ()

# Run model on img and caption
output = model ( img , caption )
print ( output )  # (1, 1024, 20000)

이익

RT-2는 비전, 언어 및 행동의 교차점에 위치하여 로봇 공학 세계에 탁월한 기능과 상당한 이점을 제공합니다.

웹 규모의 데이터세트와 직접적인 로봇 데이터를 활용하는 RT-2는 시각적, 의미론적 단서를 이해하고 로봇 제어 작업으로 변환하는 탁월한 성능을 제공합니다.
RT-2의 아키텍처는 잘 확립된 모델을 기반으로 하여 다양한 애플리케이션에서 높은 성공 가능성을 제공합니다.
명확한 설치 지침과 잘 문서화된 예제를 통해 RT-2를 시스템에 신속하게 통합할 수 있습니다.
RT-2는 다중 도메인 이해의 복잡성을 단순화하여 데이터 처리 및 동작 예측 파이프라인에 대한 부담을 줄입니다.

모델 아키텍처

RT-2는 초기에 웹 규모 데이터에 대해 사전 훈련된 대용량 VLM(Vision-Language 모델)을 RT-2의 로봇 데이터와 통합합니다. VLM은 이미지를 입력으로 사용하여 자연어 텍스트를 나타내는 일련의 토큰을 생성합니다. 이를 로봇 제어에 적용하기 위해 RT-2는 모델 출력에서 토큰으로 표시되는 동작을 출력합니다.

RT-2는 웹과 로봇공학 데이터를 모두 사용하여 미세 조정됩니다. 결과 모델은 로봇 카메라 이미지를 해석하고 로봇이 실행할 직접적인 동작을 예측합니다. 본질적으로 시각적 패턴과 언어 패턴을 행동 중심 지침으로 변환하는데, 이는 로봇 제어 분야에서 놀라운 성과입니다.

데이터세트

논문에 사용된 데이터 세트

데이터세트	설명	원천	훈련 혼합물의 백분율(RT-2-PaLI-X)	훈련 혼합물의 백분율(RT-2-PaLM-E)
웹리	109개 언어에 걸쳐 약 100억 개의 이미지-텍스트 쌍이 상위 10% 점수의 교차 모달 유사성 예시로 필터링되어 10억 개의 학습 예시를 제공합니다.	Chenet al. (2023b), Driess et al. (2023)	해당 없음	해당 없음
에피소드 WebLI	공동 미세 조정 RT-2-PaLI-X에는 사용되지 않습니다.	Chenet al. (2023a)	해당 없음	해당 없음
로봇공학 데이터세트	이동형 조작로봇을 활용한 시연 에피소드를 모아봤습니다. 각 시연에는 7가지 기술 중 하나에 대한 자연어 교육이 주석으로 추가됩니다.	Brohanet al. (2022)	50%	66%
언어표	여러 예측 작업에 대한 교육에 사용됩니다.	린치 등. (2022)	해당 없음	해당 없음

상업적 사용 사례

RT-2의 고유한 기능은 수많은 상용 응용 프로그램을 열어줍니다.

자동화된 공장 : RT-2는 복잡한 시각적 신호와 언어 신호를 이해하고 대응함으로써 공장의 자동화를 크게 향상시킬 수 있습니다.
의료 : 로봇 수술이나 환자 치료에서 RT-2는 시각적 및 언어적 지시를 기반으로 작업을 이해하고 수행하는 데 도움을 줄 수 있습니다.
스마트 홈 : 스마트 홈 시스템에 RT-2를 통합하면 자동화가 향상되어 훨씬 더 미묘한 방식으로 주택 소유자 지침을 이해할 수 있습니다.

기여

RT-2에 대한 기여는 언제나 환영합니다! GitHub 리포지토리에서 자유롭게 이슈를 열거나 풀 요청을 하세요.

연락하다

질문이나 문제가 있는 경우 GitHub 문제를 열거나 kyegomez에 문의하세요.

소환

 @inproceedings { RT-2 ,2023,
  title = { } ,
  author = { Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Xi Chen, Krzysztof Choromanski,
Tianli Ding, Danny Driess, Avinava Dubey, Chelsea Finn, Pete Florence, Chuyuan Fu,
Montse Gonzalez Arenas, Keerthana Gopalakrishnan, Kehang Han, Karol Hausman, Alexander Herzog,
Jasmine Hsu, Brian Ichter, Alex Irpan, Nikhil Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang,
Isabel Leal, Lisa Lee, Tsang-Wei Edward Lee, Sergey Levine, Yao Lu, Henryk Michalewski, Igor Mordatch,
Karl Pertsch, Kanishka Rao, Krista Reymann, Michael Ryoo, Grecia Salazar, Pannag Sanketi,
Pierre Sermanet, Jaspiar Singh, Anikait Singh, Radu Soricut, Huong Tran, Vincent Vanhoucke, Quan Vuong,
Ayzaan Wahid, Stefan Welker, Paul Wohlhart, Jialin Wu, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Tianhe Yu,
and Brianna Zitkovich } ,
  year = { 2024 }
}