Esta é a minha implementação do modelo por trás do RT-2. O RT-2 aproveita o PALM-E como backbone com um codificador Vision e backbone de linguagem onde as imagens são incorporadas e concatenadas no mesmo espaço que os embeddings de linguagem. Esta arquitetura é bastante fácil de arquitetar, mas sofre de uma falta de compreensão profunda tanto da representação multimodal unificada quanto das representações de modalidade individual.
CLIQUE AQUI PARA O PAPEL
O RT-2 pode ser facilmente instalado usando pip:
pip install rt2
A classe RT2
é um módulo PyTorch que integra o modelo PALM-E à classe RT-2. Aqui estão alguns exemplos de como usá-lo:
Primeiro, você precisa inicializar a classe RT2
. Você pode fazer isso fornecendo os parâmetros necessários ao construtor:
import torch
from rt2 . model import RT2
# img: (batch_size, 3, 256, 256)
# caption: (batch_size, 1024)
img = torch . randn ( 1 , 3 , 256 , 256 )
caption = torch . randint ( 0 , 20000 , ( 1 , 1024 ))
# model: RT2
model = RT2 ()
# Run model on img and caption
output = model ( img , caption )
print ( output ) # (1, 1024, 20000)
O RT-2 está na intersecção entre visão, linguagem e ação, oferecendo capacidades incomparáveis e benefícios significativos para o mundo da robótica.
O RT-2 integra um modelo Vision-Language (VLM) de alta capacidade, inicialmente pré-treinado em dados em escala web, com dados robóticos do RT-2. O VLM usa imagens como entrada para gerar uma sequência de tokens que representam texto em linguagem natural. Para adaptar isso ao controle robótico, o RT-2 gera ações representadas como tokens na saída do modelo.
O RT-2 é ajustado usando dados da web e de robótica. O modelo resultante interpreta imagens da câmera do robô e prevê ações diretas a serem executadas pelo robô. Em essência, ele converte padrões visuais e de linguagem em instruções orientadas para a ação, um feito notável no campo do controle robótico.
Conjuntos de dados usados no artigo
Conjunto de dados | Descrição | Fonte | Porcentagem na mistura de treinamento (RT-2-PaLI-X) | Porcentagem na mistura de treinamento (RT-2-PaLM-E) |
---|---|---|---|---|
WebLI | Cerca de 10 bilhões de pares de imagem-texto em 109 idiomas, filtrados para os 10% de exemplos de similaridade intermodal com melhor pontuação para fornecer 1 bilhão de exemplos de treinamento. | Chen et al. (2023b), Driess et al. (2023) | N / D | N / D |
WebLI episódico | Não usado no co-ajuste fino do RT-2-PaLI-X. | Chen et al. (2023a) | N / D | N / D |
Conjunto de dados de robótica | Episódios de demonstração coletados com um robô de manipulação móvel. Cada demonstração é anotada com uma instrução de linguagem natural de uma das sete habilidades. | Brohan et al. (2022) | 50% | 66% |
Tabela de idiomas | Usado para treinamento em diversas tarefas de previsão. | Lynch et al. (2022) | N / D | N / D |
Os recursos exclusivos do RT-2 abrem inúmeras aplicações comerciais:
Contribuições para o RT-2 são sempre bem-vindas! Sinta-se à vontade para abrir um problema ou solicitação pull no repositório GitHub.
Para qualquer dúvida ou problema, abra um problema no GitHub ou entre em contato com kyegomez.
@inproceedings { RT-2 ,2023,
title = { } ,
author = { Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Xi Chen, Krzysztof Choromanski,
Tianli Ding, Danny Driess, Avinava Dubey, Chelsea Finn, Pete Florence, Chuyuan Fu,
Montse Gonzalez Arenas, Keerthana Gopalakrishnan, Kehang Han, Karol Hausman, Alexander Herzog,
Jasmine Hsu, Brian Ichter, Alex Irpan, Nikhil Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang,
Isabel Leal, Lisa Lee, Tsang-Wei Edward Lee, Sergey Levine, Yao Lu, Henryk Michalewski, Igor Mordatch,
Karl Pertsch, Kanishka Rao, Krista Reymann, Michael Ryoo, Grecia Salazar, Pannag Sanketi,
Pierre Sermanet, Jaspiar Singh, Anikait Singh, Radu Soricut, Huong Tran, Vincent Vanhoucke, Quan Vuong,
Ayzaan Wahid, Stefan Welker, Paul Wohlhart, Jialin Wu, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Tianhe Yu,
and Brianna Zitkovich } ,
year = { 2024 }
}
RT-2 é fornecido sob a licença do MIT. Consulte o arquivo LICENSE para obter detalhes.