Esta es mi implementación del modelo detrás de RT-2. RT-2 aprovecha PALM-E como columna vertebral con un codificador Vision y una columna vertebral de lenguaje donde las imágenes se incrustan y concatenan en el mismo espacio que las incrustaciones del lenguaje. Esta arquitectura es bastante fácil de diseñar, pero adolece de una falta de comprensión profunda tanto de la representación multimodal unificada como de las representaciones de modalidad individual.
HAGA CLIC AQUÍ PARA VER EL DOCUMENTO
RT-2 se puede instalar fácilmente usando pip:
pip install rt2
La clase RT2
es un módulo PyTorch que integra el modelo PALM-E en la clase RT-2. Aquí hay algunos ejemplos de cómo usarlo:
Primero, necesitas inicializar la clase RT2
. Puedes hacer esto proporcionando los parámetros necesarios al constructor:
import torch
from rt2 . model import RT2
# img: (batch_size, 3, 256, 256)
# caption: (batch_size, 1024)
img = torch . randn ( 1 , 3 , 256 , 256 )
caption = torch . randint ( 0 , 20000 , ( 1 , 1024 ))
# model: RT2
model = RT2 ()
# Run model on img and caption
output = model ( img , caption )
print ( output ) # (1, 1024, 20000)
RT-2 se encuentra en la intersección de la visión, el lenguaje y la acción, y ofrece capacidades inigualables y beneficios significativos para el mundo de la robótica.
RT-2 integra un modelo Vision-Language (VLM) de alta capacidad, inicialmente pre-entrenado en datos a escala web, con datos robóticos de RT-2. El VLM utiliza imágenes como entrada para generar una secuencia de tokens que representan texto en lenguaje natural. Para adaptar esto al control robótico, RT-2 genera acciones representadas como tokens en la salida del modelo.
RT-2 se ajusta utilizando datos web y robóticos. El modelo resultante interpreta las imágenes de la cámara del robot y predice acciones directas que el robot debe ejecutar. En esencia, convierte patrones visuales y lingüísticos en instrucciones orientadas a la acción, una hazaña notable en el campo del control robótico.
Conjuntos de datos utilizados en el artículo.
Conjunto de datos | Descripción | Fuente | Porcentaje en Mezcla de Entrenamiento (RT-2-PaLI-X) | Porcentaje en Mezcla de Entrenamiento (RT-2-PaLM-E) |
---|---|---|---|---|
WebLI | Alrededor de 10 mil millones de pares de imagen y texto en 109 idiomas, filtrados al 10 % superior con puntaje de ejemplos de similitud intermodal para brindar mil millones de ejemplos de capacitación. | Chen et al. (2023b), Driess et al. (2023) | N / A | N / A |
WebLI episódica | No se utiliza en el ajuste conjunto de RT-2-PaLI-X. | Chen et al. (2023a) | N / A | N / A |
Conjunto de datos de robótica | Episodios demostrativos recopilados con un robot de manipulación móvil. Cada demostración está comentada con una instrucción en lenguaje natural de una de las siete habilidades. | Brohan et al. (2022) | 50% | 66% |
Tabla de idiomas | Se utiliza para entrenar en varias tareas de predicción. | Lynch y cols. (2022) | N / A | N / A |
Las capacidades únicas del RT-2 abren numerosas aplicaciones comerciales:
¡Las contribuciones a RT-2 siempre son bienvenidas! No dudes en abrir una incidencia o realizar una solicitud en el repositorio de GitHub.
Para cualquier consulta o problema, abra un problema de GitHub o póngase en contacto con kyegomez.
@inproceedings { RT-2 ,2023,
title = { } ,
author = { Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Xi Chen, Krzysztof Choromanski,
Tianli Ding, Danny Driess, Avinava Dubey, Chelsea Finn, Pete Florence, Chuyuan Fu,
Montse Gonzalez Arenas, Keerthana Gopalakrishnan, Kehang Han, Karol Hausman, Alexander Herzog,
Jasmine Hsu, Brian Ichter, Alex Irpan, Nikhil Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang,
Isabel Leal, Lisa Lee, Tsang-Wei Edward Lee, Sergey Levine, Yao Lu, Henryk Michalewski, Igor Mordatch,
Karl Pertsch, Kanishka Rao, Krista Reymann, Michael Ryoo, Grecia Salazar, Pannag Sanketi,
Pierre Sermanet, Jaspiar Singh, Anikait Singh, Radu Soricut, Huong Tran, Vincent Vanhoucke, Quan Vuong,
Ayzaan Wahid, Stefan Welker, Paul Wohlhart, Jialin Wu, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Tianhe Yu,
and Brianna Zitkovich } ,
year = { 2024 }
}
RT-2 se proporciona bajo la licencia MIT. Consulte el archivo de LICENCIA para obtener más detalles.