นี่คือการนำโมเดลเบื้องหลัง RT-2 ไปใช้ของฉัน RT-2 ใช้ประโยชน์จาก PALM-E เป็นแกนหลักด้วยตัวเข้ารหัส Vision และแกนหลักภาษา โดยที่รูปภาพจะถูกฝังและต่อเข้าด้วยกันในพื้นที่เดียวกับการฝังภาษา สถาปัตยกรรมนี้ค่อนข้างง่ายสำหรับการออกแบบ แต่ทนทุกข์ทรมานจากการขาดความเข้าใจอย่างลึกซึ้งเกี่ยวกับทั้งการแสดงหลายโมดัลแบบครบวงจรหรือการแสดงแบบโมดัลแต่ละรายการ
คลิกที่นี่เพื่อดูกระดาษ
RT-2 สามารถติดตั้งได้อย่างง่ายดายโดยใช้ pip:
pip install rt2
คลาส RT2
คือโมดูล PyTorch ที่รวมโมเดล PALM-E เข้ากับคลาส RT-2 นี่คือตัวอย่างวิธีใช้งาน:
ขั้นแรก คุณต้องเริ่มต้นคลาส RT2
คุณสามารถทำได้โดยจัดเตรียมพารามิเตอร์ที่จำเป็นให้กับตัวสร้าง:
import torch
from rt2 . model import RT2
# img: (batch_size, 3, 256, 256)
# caption: (batch_size, 1024)
img = torch . randn ( 1 , 3 , 256 , 256 )
caption = torch . randint ( 0 , 20000 , ( 1 , 1024 ))
# model: RT2
model = RT2 ()
# Run model on img and caption
output = model ( img , caption )
print ( output ) # (1, 1024, 20000)
RT-2 เป็นจุดบรรจบของวิสัยทัศน์ ภาษา และการกระทำ โดยมอบความสามารถที่ไม่มีใครเทียบได้และคุณประโยชน์ที่สำคัญสำหรับโลกแห่งวิทยาการหุ่นยนต์
RT-2 ผสานรวมโมเดล Vision-Language (VLM) ความจุสูง ซึ่งได้รับการฝึกอบรมเบื้องต้นเกี่ยวกับข้อมูลระดับเว็บ เข้ากับข้อมูลหุ่นยนต์จาก RT-2 VLM ใช้รูปภาพเป็นอินพุตเพื่อสร้างลำดับโทเค็นที่แสดงข้อความภาษาธรรมชาติ เพื่อปรับสิ่งนี้สำหรับการควบคุมด้วยหุ่นยนต์ RT-2 จะส่งเอาท์พุตการกระทำที่แสดงเป็นโทเค็นในเอาท์พุตของโมเดล
RT-2 ได้รับการปรับแต่งอย่างละเอียดโดยใช้ข้อมูลทั้งบนเว็บและวิทยาการหุ่นยนต์ โมเดลผลลัพธ์จะตีความภาพจากกล้องหุ่นยนต์และคาดการณ์การกระทำโดยตรงสำหรับหุ่นยนต์ที่จะดำเนินการ โดยพื้นฐานแล้ว มันจะแปลงรูปแบบภาพและภาษาให้เป็นคำสั่งเชิงการกระทำ ซึ่งเป็นความสำเร็จที่โดดเด่นในด้านการควบคุมด้วยหุ่นยนต์
ชุดข้อมูลที่ใช้ในรายงาน
ชุดข้อมูล | คำอธิบาย | แหล่งที่มา | เปอร์เซ็นต์ในส่วนผสมการฝึก (RT-2-PaLI-X) | เปอร์เซ็นต์ส่วนผสมในการฝึก (RT-2-PaLM-E) |
---|---|---|---|---|
เว็บLI | คู่ข้อความรูปภาพประมาณ 10B ใน 109 ภาษา กรองไปยังตัวอย่างความคล้ายคลึงกันแบบข้ามโมดัลที่ให้คะแนนสูงสุด 10% เพื่อให้ตัวอย่างการฝึกอบรม 1B | เฉินและคณะ (2023b), ดรีส และคณะ (2023) | ไม่มี | ไม่มี |
ตอน WebLI | ไม่ใช้ในการปรับ RT-2-PaLI-X แบบละเอียดร่วม | เฉินและคณะ (2023ก) | ไม่มี | ไม่มี |
ชุดข้อมูลวิทยาการหุ่นยนต์ | ตอนสาธิตที่รวบรวมด้วยหุ่นยนต์ควบคุมมือถือ การสาธิตแต่ละครั้งจะมีคำอธิบายประกอบด้วยการสอนภาษาธรรมชาติจากหนึ่งในเจ็ดทักษะ | โบรฮาน และคณะ (2022) | 50% | 66% |
ภาษา-ตาราง | ใช้สำหรับฝึกงานการทำนายต่างๆ | ลินช์และคณะ (2022) | ไม่มี | ไม่มี |
ความสามารถเฉพาะตัวของ RT-2 เปิดการใช้งานเชิงพาณิชย์มากมาย:
การมีส่วนร่วมกับ RT-2 ยินดีต้อนรับเสมอ! อย่าลังเลที่จะเปิดปัญหาหรือดึงคำขอจากที่เก็บ GitHub
หากมีข้อสงสัยหรือปัญหาใดๆ โปรดเปิดปัญหา GitHub หรือติดต่อกับ kyegomez
@inproceedings { RT-2 ,2023,
title = { } ,
author = { Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Xi Chen, Krzysztof Choromanski,
Tianli Ding, Danny Driess, Avinava Dubey, Chelsea Finn, Pete Florence, Chuyuan Fu,
Montse Gonzalez Arenas, Keerthana Gopalakrishnan, Kehang Han, Karol Hausman, Alexander Herzog,
Jasmine Hsu, Brian Ichter, Alex Irpan, Nikhil Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang,
Isabel Leal, Lisa Lee, Tsang-Wei Edward Lee, Sergey Levine, Yao Lu, Henryk Michalewski, Igor Mordatch,
Karl Pertsch, Kanishka Rao, Krista Reymann, Michael Ryoo, Grecia Salazar, Pannag Sanketi,
Pierre Sermanet, Jaspiar Singh, Anikait Singh, Radu Soricut, Huong Tran, Vincent Vanhoucke, Quan Vuong,
Ayzaan Wahid, Stefan Welker, Paul Wohlhart, Jialin Wu, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Tianhe Yu,
and Brianna Zitkovich } ,
year = { 2024 }
}
RT-2 มีให้ภายใต้ใบอนุญาต MIT ดูไฟล์ใบอนุญาตสำหรับรายละเอียด