صفحة المشروع | Arxiv | فيديو
Vikrant Dewangan* 1 , Tushar Choudhary* 1 , Shivam Chandhok* 2 , Shubham Priyadarshan 1 , Anushka Jain 1 , Arun K. Singh 3 , Siddharth Srivastava 4 , Krishna Murthy Jatavallabhula
1 المعهد الدولي لتكنولوجيا المعلومات ، حيدر أباد ، 2 جامعة كولومبيا البريطانية ، 3 جامعة تارتو 4 شتورتور INC 5 MIT-CSAIL
*يدل على مساواة المساهمة ،
$^ Dagger $ يدل على المساواة في تقديم المشورة
ICRA 2024
نقدم Talk2Bev ، واجهة نموذج لغة كبيرة (LVLM) لخرائط عرض الطيور (BEV) (BEV) شائعة الاستخدام في القيادة المستقلة.
بينما ركزت أنظمة الإدراك الحالية لسيناريوهات القيادة المستقلة إلى حد كبير على مجموعة محددة مسبقًا من فئات الكائنات وسيناريوهات القيادة ، فإن Talk2Bev يلغي الحاجة إلى تدريب محدد بيف ، ويعتمد بدلاً من ذلك على LVLMs التي تم تدريبها مسبقًا. يمكّن ذلك نظامًا واحدًا من تلبية مجموعة متنوعة من مهام القيادة المستقلة التي تشمل التفكير البصري والمكاني ، والتنبؤ بنوايا الجهات الفاعلة في حركة المرور ، وصنع القرار على أساس العظة البصرية.
نقوم بتقييم Talk2bev على نطاق واسع على عدد كبير من مهام فهم المشهد التي تعتمد على القدرة على تفسير استعلامات اللغة الطبيعية الحرة ، وفي تأسيس هذه الاستعلامات إلى السياق البصري المضمّن في خريطة BEV المحسنة للغة. لتمكين مزيد من البحث في LVLMs لسيناريوهات القيادة المستقلة ، نقوم بتطوير ونطلق محرك Talk2Bev-bench ، وهو مؤشر يمر 1000 سيناريوهات BEV ذات الإنسان ، مع أكثر من 20،000 سؤال واستجابات الحقيقة الأرضية من مجموعة بيانات Nuscenes.
يرجى تنزيل مجموعة بيانات Nuscenes V1.0-Trainval. تتكون مجموعة البيانات الخاصة بنا من جزأين-Calk2Bev-Base و Talk2Bev-Captions ، تتكون من القاعدة (المحاصيل ، صور المنظور ، Centroids منطقة بيف) وتسميات المحاصيل على التوالي.
نحن نقدم رابطين لمجموعة بيانات Talk2Bev ( Talk2Bev-Mini (التسميات التوضيحية فقط) و Talk2bev-Full ) أدناه. يتم استضافة مجموعة البيانات على Google Drive. يرجى تنزيل مجموعة البيانات واستخراج الملفات إلى مجلد data
.
اسم | قاعدة | التسميات التوضيحية | مقعد | وصلة |
---|---|---|---|---|
Talk2bev- mini | ✓ | ✗ | ✗ | وصلة |
Talk2bev- ممتلئ | ✗ | ✗ | ✗ | تودو |
إذا كنت ترغب في إنشاء مجموعة البيانات من نقطة الصفر ، فيرجى اتباع العملية هنا. تم وصف تنسيق كل من أجزاء البيانات بالتنسيق.
يحدث التقييم على Talk2Bev عبر طريقتين - MCQs (من Talk2Bev -Bench) والمشغلين المكانيين. نستخدم GPT-4 لتقييمنا. يرجى اتباع التعليمات في GPT-4 وتهيئة مفتاح API والمؤسسة في نظام التشغيل ENV الخاص بك.
ORGANIZATION= < your-organization >
API_KEY= < your-api-key >
للحصول على دقة MCQs ، يرجى تشغيل الأمر التالي:
cd evaluation
python eval_mcq.py
هذا سيؤدي إلى دقة MCQS.
للحصول على خطأ المسافة ، IOU للحصول على MCQs ، يرجى تشغيل الأمر التالي:
cd evaluation
python eval_spops.py
نسمح أيضًا بمحادثة مجانية مع BEV. يرجى اتباع التعليمات في Click2Chat للدردشة مع BEV.
ليصدر