Это моя реализация модели RT-2. RT-2 использует PALM-E в качестве основы с кодировщиком Vision и языковой основой, где изображения встраиваются и объединяются в том же пространстве, что и языковые встраивания. Эту архитектуру довольно легко спроектировать, но она страдает от отсутствия глубокого понимания как единого мультимодального представления, так и представлений отдельных модальностей.
НАЖМИТЕ ЗДЕСЬ ДЛЯ БУМАГИ
RT-2 можно легко установить с помощью pip:
pip install rt2
Класс RT2
— это модуль PyTorch, который интегрирует модель PALM-E в класс RT-2. Вот несколько примеров того, как его использовать:
Сначала вам нужно инициализировать класс RT2
. Сделать это можно, указав необходимые параметры конструктору:
import torch
from rt2 . model import RT2
# img: (batch_size, 3, 256, 256)
# caption: (batch_size, 1024)
img = torch . randn ( 1 , 3 , 256 , 256 )
caption = torch . randint ( 0 , 20000 , ( 1 , 1024 ))
# model: RT2
model = RT2 ()
# Run model on img and caption
output = model ( img , caption )
print ( output ) # (1, 1024, 20000)
RT-2 находится на стыке видения, языка и действий, обеспечивая непревзойденные возможности и значительные преимущества для мира робототехники.
RT-2 объединяет высокопроизводительную модель Vision-Language (VLM), изначально предварительно обученную на данных веб-масштаба, с данными робототехники из RT-2. VLM использует изображения в качестве входных данных для создания последовательности токенов, представляющих текст на естественном языке. Чтобы адаптировать это для роботизированного управления, RT-2 выводит действия, представленные в виде токенов в выходных данных модели.
RT-2 точно настраивается с использованием как веб-данных, так и данных робототехники. Полученная модель интерпретирует изображения с камеры робота и прогнозирует прямые действия, которые робот должен выполнить. По сути, он преобразует визуальные и языковые шаблоны в инструкции, ориентированные на действия, что является выдающимся достижением в области управления роботами.
Наборы данных, использованные в статье
Набор данных | Описание | Источник | Процент в тренировочной смеси (RT-2-PaLI-X) | Процент в тренировочной смеси (RT-2-PaLM-E) |
---|---|---|---|---|
ВебЛИ | Около 10 миллиардов пар изображение-текст на 109 языках отфильтрованы до 10% лучших примеров кросс-модального сходства, чтобы получить 1 миллиард обучающих примеров. | Чен и др. (2023b), Дрисс и др. (2023) | Н/Д | Н/Д |
Эпизодический WebLI | Не используется при доводке RT-2-PaLI-X. | Чен и др. (2023а) | Н/Д | Н/Д |
Набор данных робототехники | Демонстрационные эпизоды, собранные с помощью мобильного робота-манипулятора. Каждая демонстрация сопровождается инструкцией на естественном языке по одному из семи навыков. | Брохан и др. (2022) | 50% | 66% |
Языковая таблица | Используется для обучения нескольким задачам прогнозирования. | Линч и др. (2022) | Н/Д | Н/Д |
Уникальные возможности РТ-2 открывают множество коммерческих применений:
Материалы для РТ-2 всегда приветствуются! Не стесняйтесь открыть проблему или запросить извлечение в репозитории GitHub.
По любым вопросам или проблемам, пожалуйста, откройте вопрос на GitHub или свяжитесь с kyegomez.
@inproceedings { RT-2 ,2023,
title = { } ,
author = { Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Xi Chen, Krzysztof Choromanski,
Tianli Ding, Danny Driess, Avinava Dubey, Chelsea Finn, Pete Florence, Chuyuan Fu,
Montse Gonzalez Arenas, Keerthana Gopalakrishnan, Kehang Han, Karol Hausman, Alexander Herzog,
Jasmine Hsu, Brian Ichter, Alex Irpan, Nikhil Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang,
Isabel Leal, Lisa Lee, Tsang-Wei Edward Lee, Sergey Levine, Yao Lu, Henryk Michalewski, Igor Mordatch,
Karl Pertsch, Kanishka Rao, Krista Reymann, Michael Ryoo, Grecia Salazar, Pannag Sanketi,
Pierre Sermanet, Jaspiar Singh, Anikait Singh, Radu Soricut, Huong Tran, Vincent Vanhoucke, Quan Vuong,
Ayzaan Wahid, Stefan Welker, Paul Wohlhart, Jialin Wu, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Tianhe Yu,
and Brianna Zitkovich } ,
year = { 2024 }
}
RT-2 предоставляется по лицензии MIT. Подробности смотрите в файле ЛИЦЕНЗИИ.