หน้าโครงการ | arxiv วิดีโอ
Vikrant Dewangan* 1 , Tushar Choudhary* 1 , Shivam Chandhok* 2 , Shubham Priyadarshan 1 , Anushka Jain 1 , Arun K. Singh 3 , Siddharth Srivastava 4 , Krishna Murthy Jatavallabhula
1 สถาบันเทคโนโลยีสารสนเทศระหว่างประเทศไฮเดอราบัด, 2 มหาวิทยาลัยบริติชโคลัมเบีย, 3 มหาวิทยาลัยทาร์ตู 4 Tensortour Inc 5 MIT-CSAIL
*หมายถึงการมีส่วนร่วมที่เท่าเทียมกัน
$^ dagger $ หมายถึงคำแนะนำที่เท่าเทียมกัน
ICRA 2024
เราแนะนำ Talk2Bev ซึ่งเป็นอินเทอร์เฟซแบบจำลองการมองเห็นขนาดใหญ่ (LVLM) สำหรับแผนที่มุมมองนก (BEV) แผนที่ที่ใช้กันทั่วไปในการขับขี่แบบอิสระ
ในขณะที่ระบบการรับรู้ที่มีอยู่สำหรับสถานการณ์การขับขี่แบบอิสระได้มุ่งเน้นไปที่ชุดของหมวดหมู่วัตถุที่กำหนดไว้ล่วงหน้า (ปิด) และสถานการณ์การขับขี่ แต่ Talk2Bev ไม่จำเป็นต้องฝึกอบรมโดยเฉพาะ สิ่งนี้ช่วยให้ระบบเดียวสามารถตอบสนองความหลากหลายของงานการขับขี่แบบอิสระที่ครอบคลุมการใช้เหตุผลทางสายตาและเชิงพื้นที่ทำนายความตั้งใจของนักแสดงการจราจรและการตัดสินใจตามตัวชี้นำภาพ
เราประเมิน Talk2Bev อย่างกว้างขวางเกี่ยวกับงานการทำความเข้าใจฉากจำนวนมากที่ต้องอาศัยทั้งความสามารถในการตีความแบบสอบถามภาษาธรรมชาติจากการสอบถามและในการตอบคำถามเหล่านี้ไปยังบริบทของภาพที่ฝังอยู่ในแผนที่ BEV ที่ปรับปรุงภาษา เพื่อเปิดใช้งานการวิจัยเพิ่มเติมใน LVLMS สำหรับสถานการณ์การขับขี่แบบอัตโนมัติเราพัฒนาและปล่อย TALK2BEV-BENCH ซึ่งเป็นเกณฑ์มาตรฐานที่ผ่านมา 1,000 สถานการณ์ BEV ที่ได้รับการรับรองจากมนุษย์ 1,000 คนโดยมีคำถามมากกว่า 20,000 ข้อ
โปรดดาวน์โหลดชุดข้อมูล Nuscenes v1.0-Trainval ชุดข้อมูลของเราประกอบด้วย 2 ส่วน-talk2bev-base และ talk2bev-captions ซึ่งประกอบด้วยฐาน (พืชภาพมุมมองเซนทรอยด์พื้นที่ Bev) และคำอธิบายภาพพืชตามลำดับ
เราให้บริการ 2 ลิงก์ไปยังชุดข้อมูล Talk2Bev ( Talk2Bev-Mini (คำบรรยายเท่านั้น) และ Talk2Bev-Full ) มีให้ด้านล่าง ชุดข้อมูลโฮสต์บน Google Drive โปรดดาวน์โหลดชุดข้อมูลและแยกไฟล์ไปยังโฟลเดอร์ data
ชื่อ | ฐาน | คำบรรยายภาพ | ม้านั่ง | การเชื่อมโยง |
---|---|---|---|---|
talk2bev- mini | การเชื่อมโยง | |||
talk2bev- เต็ม | สิ่งที่ต้องทำ |
หากคุณต้องการสร้างชุดข้อมูลตั้งแต่เริ่มต้นโปรดติดตามกระบวนการที่นี่ รูปแบบสำหรับแต่ละชิ้นส่วนข้อมูลอธิบายไว้ในรูปแบบ
การประเมินผล Talk2Bev เกิดขึ้นผ่าน 2 วิธี - MCQS (จาก Talk2Bev -Bench) และผู้ให้บริการเชิงพื้นที่ เราใช้ GPT-4 สำหรับการประเมินผลของเรา โปรดทำตามคำแนะนำใน GPT-4 และเริ่มต้นคีย์ API และองค์กรใน OS Env ของคุณ
ORGANIZATION= < your-organization >
API_KEY= < your-api-key >
หากต้องการรับความแม่นยำสำหรับ MCQs โปรดเรียกใช้คำสั่งต่อไปนี้:
cd evaluation
python eval_mcq.py
สิ่งนี้จะให้ความแม่นยำสำหรับ MCQS
หากต้องการรับข้อผิดพลาดทางไกล IOU สำหรับ MCQs โปรดเรียกใช้คำสั่งต่อไปนี้:
cd evaluation
python eval_spops.py
นอกจากนี้เรายังอนุญาตให้มีการสนทนาแบบฟรีกับ Bev โปรดทำตามคำแนะนำใน click2chat เพื่อแชทกับ Bev
ที่จะได้รับการปล่อยตัว