Ini adalah implementasi saya terhadap model di balik RT-2. RT-2 memanfaatkan PALM-E sebagai tulang punggung dengan encoder Vision dan tulang punggung bahasa tempat gambar disematkan dan digabungkan dalam ruang yang sama dengan penyematan bahasa. Arsitektur ini cukup mudah untuk diarsitek tetapi mengalami kurangnya pemahaman mendalam tentang representasi multimodal terpadu atau representasi modalitas individu.
KLIK DI SINI UNTUK KERTASNYA
RT-2 dapat dengan mudah diinstal menggunakan pip:
pip install rt2
Kelas RT2
adalah modul PyTorch yang mengintegrasikan model PALM-E ke dalam kelas RT-2. Berikut beberapa contoh cara menggunakannya:
Pertama, Anda perlu menginisialisasi kelas RT2
. Anda dapat melakukan ini dengan memberikan parameter yang diperlukan ke konstruktor:
import torch
from rt2 . model import RT2
# img: (batch_size, 3, 256, 256)
# caption: (batch_size, 1024)
img = torch . randn ( 1 , 3 , 256 , 256 )
caption = torch . randint ( 0 , 20000 , ( 1 , 1024 ))
# model: RT2
model = RT2 ()
# Run model on img and caption
output = model ( img , caption )
print ( output ) # (1, 1024, 20000)
RT-2 berdiri di persimpangan antara visi, bahasa, dan tindakan, memberikan kemampuan tak tertandingi dan manfaat signifikan bagi dunia robotika.
RT-2 mengintegrasikan model Vision-Language (VLM) berkapasitas tinggi, yang awalnya dilatih sebelumnya pada data skala web, dengan data robotika dari RT-2. VLM menggunakan gambar sebagai masukan untuk menghasilkan rangkaian token yang mewakili teks bahasa alami. Untuk mengadaptasi ini untuk kontrol robot, tindakan keluaran RT-2 direpresentasikan sebagai token dalam keluaran model.
RT-2 disempurnakan menggunakan data web dan robotika. Model yang dihasilkan menafsirkan gambar kamera robot dan memprediksi tindakan langsung yang akan dilakukan robot. Intinya, ia mengubah pola visual dan bahasa menjadi instruksi yang berorientasi pada tindakan, suatu prestasi luar biasa di bidang kendali robot.
Kumpulan data yang digunakan di makalah
Kumpulan data | Keterangan | Sumber | Persentase Campuran Latihan (RT-2-PaLI-X) | Persentase Campuran Latihan (RT-2-PaLM-E) |
---|---|---|---|---|
WebLI | Sekitar 10 miliar pasangan gambar-teks dalam 109 bahasa, difilter ke 10% teratas dengan skor contoh kesamaan lintas-modal untuk memberikan contoh pelatihan 1 miliar. | Chen dkk. (2023b), Driess dkk. (2023) | T/A | T/A |
WebLI Episodik | Tidak digunakan dalam penyempurnaan bersama RT-2-PaLI-X. | Chen dkk. (2023a) | T/A | T/A |
Kumpulan Data Robotika | Episode demonstrasi dikumpulkan dengan robot manipulasi seluler. Setiap demonstrasi dilengkapi dengan pengajaran bahasa alami dari salah satu dari tujuh keterampilan. | Brohan dkk. (2022) | 50% | 66% |
Bahasa-Tabel | Digunakan untuk pelatihan beberapa tugas prediksi. | Lynch dkk. (2022) | T/A | T/A |
Kemampuan unik RT-2 membuka banyak aplikasi komersial:
Kontribusi untuk RT-2 selalu diterima! Jangan ragu untuk membuka masalah atau menarik permintaan di repositori GitHub.
Untuk pertanyaan atau masalah apa pun, silakan buka masalah GitHub atau hubungi kyegomez.
@inproceedings { RT-2 ,2023,
title = { } ,
author = { Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Xi Chen, Krzysztof Choromanski,
Tianli Ding, Danny Driess, Avinava Dubey, Chelsea Finn, Pete Florence, Chuyuan Fu,
Montse Gonzalez Arenas, Keerthana Gopalakrishnan, Kehang Han, Karol Hausman, Alexander Herzog,
Jasmine Hsu, Brian Ichter, Alex Irpan, Nikhil Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang,
Isabel Leal, Lisa Lee, Tsang-Wei Edward Lee, Sergey Levine, Yao Lu, Henryk Michalewski, Igor Mordatch,
Karl Pertsch, Kanishka Rao, Krista Reymann, Michael Ryoo, Grecia Salazar, Pannag Sanketi,
Pierre Sermanet, Jaspiar Singh, Anikait Singh, Radu Soricut, Huong Tran, Vincent Vanhoucke, Quan Vuong,
Ayzaan Wahid, Stefan Welker, Paul Wohlhart, Jialin Wu, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Tianhe Yu,
and Brianna Zitkovich } ,
year = { 2024 }
}
RT-2 disediakan di bawah Lisensi MIT. Lihat file LISENSI untuk detailnya.