項目頁面| arxiv |影片
Vikrant Dewangan* 1 ,Tushar Choudhary* 1 ,Shivam Chandhok* 2 ,Shubham Priyadarshan 1 ,Anushka Jain 1 ,Arun K. Singh 3 ,Siddharth Srivastava 4 ,Krishna Murthy Murthy Jatavally Jatavally Jatavallabhula jatavallabhula jatavallabhula jatavallabhula
1國際信息技術研究所海得拉巴,不列顛哥倫比亞大學2 ,塔爾圖大學4 Tensortour Inc 5 Mit-Csail
*表示同等的貢獻,
$^匕首$ 表示平等的建議
ICRA 2024
我們介紹了Talk2Bev,這是一種大型視覺模型(LVLM)界面,用於鳥類視圖(BEV)地圖,通常在自動駕駛中使用。
儘管現有用於自動駕駛場景的感知系統主要集中在預定的(封閉式)對像類別和駕駛場景上,但Talk2BEV消除了對特定培訓的需求,而是依靠性能的預訓練的LVLM。這使一個系統能夠迎合各種涵蓋視覺和空間推理的自主駕駛任務,預測交通參與者的意圖以及基於視覺提示的決策。
我們對大量的場景理解任務進行了廣泛的評估,這些任務既依賴於自由語言查詢的能力,又要將這些查詢接地到嵌入語言增強的BEV映射的視覺上下文中。為了在LVLM中進行進一步的研究,以實現自主駕駛場景,我們開發和發布Talk2Bev-Bench,這是一個基準,通過1000個人類宣布的BEV場景,其中有20,000多個問題和NUSCENES數據集的基礎響應。
請下載Nuscenes V1.0-TrainVal數據集。我們的數據集由2個部分組成 - Talk2Bev基礎和Talk2Bev捕獲,分別由基礎(農作物,透視圖像,BEV區域質心)和作物標題組成。
我們提供了2個鏈接,以下提供了下面提供的TAKE2BEV數據集( Talk2Bev-Mini (僅字幕)和Talk2Bev-Full )。該數據集託管在Google Drive上。請下載數據集並將文件提取到data
文件夾。
姓名 | 根據 | 字幕 | 長椅 | 關聯 |
---|---|---|---|---|
talk2bev- mini | ✓ | ✗ | ✗ | 關聯 |
Talk2Bev-完整 | ✗ | ✗ | ✗ | 托多 |
如果要從頭開始生成數據集,請在此處關注該過程。每個數據部分的格式以格式描述。
對Talk2BEV的評估通過2種方法進行 - MCQ(來自Talk2BEV Bench)和空間操作員進行評估。我們使用GPT-4進行評估。請按照GPT-4中的說明進行操作,並在OS Env中初始化API密鑰和組織。
ORGANIZATION= < your-organization >
API_KEY= < your-api-key >
要獲得MCQ的準確性,請運行以下命令:
cd evaluation
python eval_mcq.py
這將產生MCQ的準確性。
要獲取距離錯誤,請為MCQ提供以下命令:
cd evaluation
python eval_spops.py
我們還允許與BEV自由形式對話。請按照Click2Chat中的說明與BEV聊天。
要發布