Ceci est mon implémentation du modèle derrière RT-2. RT-2 exploite PALM-E comme épine dorsale avec un encodeur Vision et une épine dorsale de langage où les images sont intégrées et concaténées dans le même espace que les intégrations de langage. Cette architecture est assez facile à concevoir mais souffre d’un manque de compréhension approfondie à la fois de la représentation multimodale unifiée et des représentations de modalités individuelles.
CLIQUEZ ICI POUR LE PAPIER
RT-2 peut être facilement installé en utilisant pip :
pip install rt2
La classe RT2
est un module PyTorch qui intègre le modèle PALM-E dans la classe RT-2. Voici quelques exemples d’utilisation :
Tout d’abord, vous devez initialiser la classe RT2
. Vous pouvez le faire en fournissant les paramètres nécessaires au constructeur :
import torch
from rt2 . model import RT2
# img: (batch_size, 3, 256, 256)
# caption: (batch_size, 1024)
img = torch . randn ( 1 , 3 , 256 , 256 )
caption = torch . randint ( 0 , 20000 , ( 1 , 1024 ))
# model: RT2
model = RT2 ()
# Run model on img and caption
output = model ( img , caption )
print ( output ) # (1, 1024, 20000)
RT-2 se situe à l'intersection de la vision, du langage et de l'action, offrant des capacités inégalées et des avantages significatifs pour le monde de la robotique.
RT-2 intègre un modèle Vision-Language (VLM) de grande capacité, initialement pré-entraîné sur des données à l'échelle du Web, avec les données robotiques de RT-2. Le VLM utilise des images comme entrée pour générer une séquence de jetons représentant du texte en langage naturel. Pour adapter cela au contrôle robotique, RT-2 génère des actions représentées sous forme de jetons dans la sortie du modèle.
RT-2 est affiné à l’aide de données Web et robotiques. Le modèle résultant interprète les images de la caméra du robot et prédit les actions directes que le robot devra exécuter. Essentiellement, il convertit les modèles visuels et linguistiques en instructions orientées vers l’action, un exploit remarquable dans le domaine du contrôle robotique.
Ensembles de données utilisés dans l'article
Ensemble de données | Description | Source | Pourcentage dans le mélange de formation (RT-2-PaLI-X) | Pourcentage dans le mélange de formation (RT-2-PaLM-E) |
---|---|---|---|---|
WebLI | Environ 10 milliards de paires image-texte dans 109 langues, filtrées jusqu'aux 10 % d'exemples de similarité intermodale les plus performants pour donner 1 milliard d'exemples de formation. | Chen et coll. (2023b), Driess et al. (2023) | N / A | N / A |
WebLI épisodique | Non utilisé dans le co-réglage précis du RT-2-PaLI-X. | Chen et coll. (2023a) | N / A | N / A |
Ensemble de données robotique | Épisodes de démonstration collectés avec un robot de manipulation mobile. Chaque démonstration est annotée avec une instruction en langage naturel pour l'une des sept compétences. | Brohan et coll. (2022) | 50% | 66% |
Tableau des langues | Utilisé pour la formation sur plusieurs tâches de prédiction. | Lynch et coll. (2022) | N / A | N / A |
Les capacités uniques du RT-2 ouvrent de nombreuses applications commerciales :
Les contributions à RT-2 sont toujours les bienvenues ! N'hésitez pas à ouvrir un ticket ou une pull request sur le référentiel GitHub.
Pour toute question ou problème, veuillez ouvrir un ticket GitHub ou contacter kyegomez.
@inproceedings { RT-2 ,2023,
title = { } ,
author = { Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Xi Chen, Krzysztof Choromanski,
Tianli Ding, Danny Driess, Avinava Dubey, Chelsea Finn, Pete Florence, Chuyuan Fu,
Montse Gonzalez Arenas, Keerthana Gopalakrishnan, Kehang Han, Karol Hausman, Alexander Herzog,
Jasmine Hsu, Brian Ichter, Alex Irpan, Nikhil Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang,
Isabel Leal, Lisa Lee, Tsang-Wei Edward Lee, Sergey Levine, Yao Lu, Henryk Michalewski, Igor Mordatch,
Karl Pertsch, Kanishka Rao, Krista Reymann, Michael Ryoo, Grecia Salazar, Pannag Sanketi,
Pierre Sermanet, Jaspiar Singh, Anikait Singh, Radu Soricut, Huong Tran, Vincent Vanhoucke, Quan Vuong,
Ayzaan Wahid, Stefan Welker, Paul Wohlhart, Jialin Wu, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Tianhe Yu,
and Brianna Zitkovich } ,
year = { 2024 }
}
RT-2 est fourni sous licence MIT. Voir le fichier LICENSE pour plus de détails.