هذا هو تطبيقي للنموذج الكامن وراء RT-2. يعمل RT-2 على تعزيز PALM-E باعتباره العمود الفقري مع برنامج تشفير الرؤية والعمود الفقري للغة حيث يتم تضمين الصور وتسلسلها في نفس المساحة مثل تضمينات اللغة. من السهل جدًا تصميم هذه البنية ولكنها تعاني من نقص الفهم العميق لكل من التمثيل الموحد متعدد الوسائط أو تمثيلات الوسائط الفردية.
انقر هنا للحصول على الورقة
يمكن تثبيت RT-2 بسهولة باستخدام النقطة:
pip install rt2
فئة RT2
هي وحدة PyTorch التي تدمج نموذج PALM-E في فئة RT-2. وفيما يلي بعض الأمثلة على كيفية استخدامه:
أولاً، تحتاج إلى تهيئة فئة RT2
. يمكنك القيام بذلك عن طريق توفير المعلمات اللازمة للمنشئ:
import torch
from rt2 . model import RT2
# img: (batch_size, 3, 256, 256)
# caption: (batch_size, 1024)
img = torch . randn ( 1 , 3 , 256 , 256 )
caption = torch . randint ( 0 , 20000 , ( 1 , 1024 ))
# model: RT2
model = RT2 ()
# Run model on img and caption
output = model ( img , caption )
print ( output ) # (1, 1024, 20000)
يقف RT-2 عند تقاطع الرؤية واللغة والعمل، مما يوفر قدرات لا مثيل لها وفوائد كبيرة لعالم الروبوتات.
يدمج RT-2 نموذج رؤية ولغة عالي السعة (VLM)، تم تدريبه مسبقًا في البداية على البيانات على نطاق الويب، مع بيانات الروبوتات من RT-2. يستخدم VLM الصور كمدخلات لإنشاء سلسلة من الرموز المميزة التي تمثل نص اللغة الطبيعية. لتكييف هذا للتحكم الآلي، يقوم RT-2 بإخراج الإجراءات الممثلة كرموز مميزة في مخرجات النموذج.
تم ضبط RT-2 باستخدام بيانات الويب والروبوتات. يفسر النموذج الناتج صور كاميرا الروبوت ويتنبأ بالإجراءات المباشرة التي يجب على الروبوت تنفيذها. في جوهره، فهو يحول الأنماط المرئية واللغوية إلى تعليمات موجهة نحو العمل، وهو إنجاز رائع في مجال التحكم الآلي.
مجموعات البيانات المستخدمة في الورقة
مجموعة البيانات | وصف | مصدر | النسبة المئوية في خليط التدريب (RT-2-PaLI-X) | النسبة المئوية في خليط التدريب (RT-2-PaLM-E) |
---|---|---|---|---|
ويب لي | حوالي 10 مليار زوج من الصور والنصوص عبر 109 لغة، تمت تصفيتها لأفضل 10% من أمثلة التشابه عبر الوسائط لإعطاء 1 مليار أمثلة تدريبية. | تشن وآخرون. (2023ب)، دريس وآخرون. (2023) | لا يوجد | لا يوجد |
عرضي WebLI | لا يستخدم في الضبط الدقيق RT-2-PaLI-X. | تشن وآخرون. (2023أ) | لا يوجد | لا يوجد |
مجموعة بيانات الروبوتات | حلقات توضيحية تم جمعها باستخدام روبوت التلاعب المتنقل. يتم شرح كل عرض توضيحي بتعليمات اللغة الطبيعية من إحدى المهارات السبع. | بروهان وآخرون. (2022) | 50% | 66% |
جدول اللغة | يستخدم للتدريب على العديد من مهام التنبؤ. | لينش وآخرون. (2022) | لا يوجد | لا يوجد |
تفتح القدرات الفريدة لـ RT-2 العديد من التطبيقات التجارية:
المساهمات في RT-2 هي موضع ترحيب دائمًا! لا تتردد في فتح مشكلة أو سحب الطلب في مستودع GitHub.
إذا كانت لديك أي استفسارات أو مشكلات، يرجى فتح مشكلة GitHub أو التواصل مع kyegomez.
@inproceedings { RT-2 ,2023,
title = { } ,
author = { Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Xi Chen, Krzysztof Choromanski,
Tianli Ding, Danny Driess, Avinava Dubey, Chelsea Finn, Pete Florence, Chuyuan Fu,
Montse Gonzalez Arenas, Keerthana Gopalakrishnan, Kehang Han, Karol Hausman, Alexander Herzog,
Jasmine Hsu, Brian Ichter, Alex Irpan, Nikhil Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang,
Isabel Leal, Lisa Lee, Tsang-Wei Edward Lee, Sergey Levine, Yao Lu, Henryk Michalewski, Igor Mordatch,
Karl Pertsch, Kanishka Rao, Krista Reymann, Michael Ryoo, Grecia Salazar, Pannag Sanketi,
Pierre Sermanet, Jaspiar Singh, Anikait Singh, Radu Soricut, Huong Tran, Vincent Vanhoucke, Quan Vuong,
Ayzaan Wahid, Stefan Welker, Paul Wohlhart, Jialin Wu, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Tianhe Yu,
and Brianna Zitkovich } ,
year = { 2024 }
}
يتم توفير RT-2 بموجب ترخيص MIT. راجع ملف الترخيص للحصول على التفاصيل.