Dies ist meine Implementierung des Modells hinter RT-2. RT-2 nutzt PALM-E als Rückgrat mit einem Vision-Encoder und einem Sprachrückgrat, bei dem Bilder im selben Raum wie die Spracheinbettungen eingebettet und verkettet werden. Diese Architektur lässt sich recht einfach entwerfen, weist jedoch einen Mangel an tiefem Verständnis sowohl der einheitlichen multimodalen Darstellung als auch der einzelnen Modalitätsdarstellungen auf.
KLICKEN SIE HIER FÜR DAS PAPER
RT-2 kann einfach mit pip installiert werden:
pip install rt2
Die RT2
-Klasse ist ein PyTorch-Modul, das das PALM-E-Modell in die RT-2-Klasse integriert. Hier sind einige Beispiele für die Verwendung:
Zuerst müssen Sie die RT2
-Klasse initialisieren. Sie können dies tun, indem Sie dem Konstruktor die erforderlichen Parameter bereitstellen:
import torch
from rt2 . model import RT2
# img: (batch_size, 3, 256, 256)
# caption: (batch_size, 1024)
img = torch . randn ( 1 , 3 , 256 , 256 )
caption = torch . randint ( 0 , 20000 , ( 1 , 1024 ))
# model: RT2
model = RT2 ()
# Run model on img and caption
output = model ( img , caption )
print ( output ) # (1, 1024, 20000)
RT-2 steht an der Schnittstelle von Vision, Sprache und Aktion und bietet unübertroffene Fähigkeiten und erhebliche Vorteile für die Welt der Robotik.
RT-2 integriert ein leistungsstarkes Vision-Language-Modell (VLM), das zunächst auf Web-Scale-Daten vortrainiert wurde, mit Robotikdaten von RT-2. Der VLM verwendet Bilder als Eingabe, um eine Folge von Token zu generieren, die Text in natürlicher Sprache darstellen. Um dies für die Robotersteuerung anzupassen, gibt RT-2 Aktionen aus, die als Token in der Modellausgabe dargestellt werden.
Die Feinabstimmung von RT-2 erfolgt mithilfe von Web- und Robotikdaten. Das resultierende Modell interpretiert Roboterkamerabilder und sagt direkte Aktionen voraus, die der Roboter ausführen soll. Im Wesentlichen wandelt es visuelle und sprachliche Muster in handlungsorientierte Anweisungen um, eine bemerkenswerte Leistung auf dem Gebiet der Robotersteuerung.
In der Arbeit verwendete Datensätze
Datensatz | Beschreibung | Quelle | Prozentsatz in der Trainingsmischung (RT-2-PaLI-X) | Prozentsatz in der Trainingsmischung (RT-2-PaLM-E) |
---|---|---|---|---|
WebLI | Etwa 10 Milliarden Bild-Text-Paare in 109 Sprachen, gefiltert nach den besten 10 % der modalübergreifenden Ähnlichkeitsbeispiele, um 1 Milliarde Trainingsbeispiele zu erhalten. | Chen et al. (2023b), Driess et al. (2023) | N / A | N / A |
Episodisches WebLI | Wird nicht bei der Co-Feinabstimmung von RT-2-PaLI-X verwendet. | Chen et al. (2023a) | N / A | N / A |
Robotik-Datensatz | Mit einem mobilen Manipulationsroboter gesammelte Demonstrationsepisoden. Jede Demonstration wird mit einer natürlichsprachlichen Anleitung zu einer von sieben Fertigkeiten kommentiert. | Brohan et al. (2022) | 50 % | 66 % |
Sprachtabelle | Wird für das Training verschiedener Vorhersageaufgaben verwendet. | Lynch et al. (2022) | N / A | N / A |
Die einzigartigen Fähigkeiten von RT-2 eröffnen zahlreiche kommerzielle Anwendungen:
Beiträge zu RT-2 sind immer willkommen! Fühlen Sie sich frei, ein Problem oder eine Pull-Anfrage im GitHub-Repository zu öffnen.
Bei Fragen oder Problemen öffnen Sie bitte ein GitHub-Problem oder nehmen Sie Kontakt mit kyegomez auf.
@inproceedings { RT-2 ,2023,
title = { } ,
author = { Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Xi Chen, Krzysztof Choromanski,
Tianli Ding, Danny Driess, Avinava Dubey, Chelsea Finn, Pete Florence, Chuyuan Fu,
Montse Gonzalez Arenas, Keerthana Gopalakrishnan, Kehang Han, Karol Hausman, Alexander Herzog,
Jasmine Hsu, Brian Ichter, Alex Irpan, Nikhil Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang,
Isabel Leal, Lisa Lee, Tsang-Wei Edward Lee, Sergey Levine, Yao Lu, Henryk Michalewski, Igor Mordatch,
Karl Pertsch, Kanishka Rao, Krista Reymann, Michael Ryoo, Grecia Salazar, Pannag Sanketi,
Pierre Sermanet, Jaspiar Singh, Anikait Singh, Radu Soricut, Huong Tran, Vincent Vanhoucke, Quan Vuong,
Ayzaan Wahid, Stefan Welker, Paul Wohlhart, Jialin Wu, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Tianhe Yu,
and Brianna Zitkovich } ,
year = { 2024 }
}
RT-2 wird unter der MIT-Lizenz bereitgestellt. Einzelheiten finden Sie in der LICENSE-Datei.