Halaman Proyek | Arxiv | Video
Vikrant Dewangan* 1 , Tushar Choudhary* 1 , Shivam Chandhok* 2 , Shubham Priyadarshan 1 , Anushka Jain 1 , Arun K. Singh 3 , Siddharth Srivastava 4 , Krishna Murthy Jatavallabhula
1 Institut Teknologi Informasi Internasional Hyderabad, 2 University of British Columbia, 3 University of Tartu 4 TensorTour Inc 5 MIT-CSAIL
*menunjukkan kontribusi yang sama,
$^ Dagger $ menunjukkan nasihat yang sama
ICRA 2024
Kami memperkenalkan antarmuka Talk2Bev, antarmuka model visi-bahasa (LVLM) yang besar untuk peta pandangan-mata burung (BEV) yang biasa digunakan dalam mengemudi otonom.
Sementara sistem persepsi yang ada untuk skenario mengemudi otonom sebagian besar telah berfokus pada serangkaian kategori objek yang telah ditentukan sebelumnya (tertutup) dan skenario mengemudi, Talk2BEV menghilangkan kebutuhan untuk pelatihan khusus BEV, dengan mengandalkan LVLM pra-terlatih. Hal ini memungkinkan sistem tunggal untuk melayani berbagai tugas mengemudi otonom yang mencakup penalaran visual dan spasial, memprediksi maksud aktor lalu lintas, dan pengambilan keputusan berdasarkan isyarat visual.
Kami secara luas mengevaluasi Talk2BeV pada sejumlah besar adegan pemahaman yang mengandalkan kemampuan untuk menafsirkan permintaan bahasa alami yang bebas, dan dalam landasan pertanyaan ini ke konteks visual yang tertanam ke dalam peta BEV yang ditingkatkan bahasa. Untuk memungkinkan penelitian lebih lanjut dalam LVLM untuk skenario mengemudi otonom, kami mengembangkan dan merilis Talk2Bev-Bench, sebuah tolok ukur yang meloloskan 1000 skenario BEV yang dianotasi manusia, dengan lebih dari 20.000 pertanyaan dan respons darat dari dataset Nuscenes.
Silakan unduh dataset Nuscenes v1.0-Trainval. Dataset kami terdiri dari 2 bagian-talk2bev-base dan talk2bev-captions, yang terdiri dari basis (tanaman, gambar perspektif, centroid area BEV) dan crop captions masing-masing.
Kami menyediakan 2 tautan ke dataset Talk2Bev ( Talk2Bev-Mini (Captions saja) dan Talk2Bev-Full ) disediakan di bawah ini. Dataset di -host di Google Drive. Silakan unduh dataset dan ekstrak file ke folder data
.
Nama | Basis | Keterangan | Bangku | Link |
---|---|---|---|---|
Talk2Bev- mini | ✓ | ✗ | ✗ | link |
Talk2Bev- Full | ✗ | ✗ | ✗ | Todo |
Jika Anda ingin menghasilkan dataset dari awal, silakan ikuti prosesnya di sini. Format untuk masing -masing bagian data dijelaskan dalam format.
Evaluasi pada Talk2BEV terjadi melalui 2 metode - MCQ (dari Talk2Bev -Bench) dan operator spasial. Kami menggunakan GPT-4 untuk evaluasi kami. Harap ikuti instruksi di GPT-4 dan inisialisasi kunci API dan organisasi di OS Env Anda.
ORGANIZATION= < your-organization >
API_KEY= < your-api-key >
Untuk mendapatkan keakuratan untuk MCQS, silakan jalankan perintah berikut:
cd evaluation
python eval_mcq.py
Ini akan menghasilkan keakuratan untuk MCQ.
Untuk mendapatkan kesalahan jarak, IOU untuk MCQS, silakan jalankan perintah berikut:
cd evaluation
python eval_spops.py
Kami juga mengizinkan percakapan bentuk bebas dengan BEV. Harap ikuti instruksi di Click2Chat untuk mengobrol dengan BEV.
Untuk dibebaskan