プロジェクトページ| arxiv |ビデオ
Vikrant Dewangan* 1 、Tushar Choudhary* 1 、Shivam Chandhok* 2 、Shubham Priyadarshan 1 、Anushka Jain 1 、Arun K. Singh 3 、Siddharth Srivastava 4 、Krishna Murthy Jatavallabhula
1国際情報技術研究所ハイデラバード、 2ブリティッシュコロンビア大学、 3 Tartu University 4 Tensortour Inc 5 MIT-CSAIL
*等しい貢献を示します、
$^ Dagger $ 等しいアドバイスを示します
ICRA 2024
自律運転で一般的に使用される鳥瞰図(BEV)マップのための大きなビジョン言語モデル(LVLM)インターフェイスであるTalk2Bevを紹介します。
自律運転シナリオの既存の認識システムは、オブジェクトカテゴリの事前に定義された(クローズド)セットと運転シナリオに主に焦点を当てていますが、Talk2Bevは、代わりにパフォーマンスのある事前訓練を受けたLVLMSに依存する可能性を排除します。これにより、単一のシステムは、視覚的および空間的推論を含むさまざまな自律運転タスクに対応し、トラフィックアクターの意図を予測し、視覚的な手がかりに基づいた意思決定に対応できます。
フリーフロムの自然言語クエリを解釈する能力の両方に依存しているタスクを理解し、言語で強化されたBEVマップに組み込まれた視覚的コンテキストにこれらのクエリを接地する際に、Talk2Bevを多数のシーンを理解しています。自律運転シナリオのLVLMSでのさらなる研究を可能にするために、nuscenesデータセットから20,000を超える質問と地上反応を伴う、1000以上のヒトが解決したBEVシナリオを通過するベンチマークを吸収するTalk2bev-benchを開発およびリリースします。
Nuscenes V1.0-Trainvalデータセットをダウンロードしてください。私たちのデータセットは、ベース(作物、視点画像、BEVエリア重心)と作物のキャプションで構成される2つの部品とtalk2bev-captionsで構成されています。
Talk2Bevデータセット( Talk2bev-mini (キャプションのみ)とtalk2bev-full )への2つのリンクを以下に提供します。データセットはGoogleドライブでホストされています。データセットをダウンロードして、ファイルをdata
フォルダーに抽出してください。
名前 | ベース | キャプション | ベンチ | リンク |
---|---|---|---|---|
talk2bev- mini | ✓✓ | ✗ | ✗ | リンク |
talk2bev- full | ✗ | ✗ | ✗ | トト |
データセットをゼロから生成したい場合は、こちらのプロセスに従ってください。各データパーツの形式は、形式で説明されています。
Talk2Bevの評価は、MCQ(Talk2Bev -Benchから)および空間演算子の2つの方法で発生します。評価にはGPT-4を使用します。 GPT-4の指示に従って、OS envのAPIキーと組織を初期化してください。
ORGANIZATION= < your-organization >
API_KEY= < your-api-key >
MCQの精度を取得するには、次のコマンドを実行してください。
cd evaluation
python eval_mcq.py
これにより、MCQの精度が得られます。
距離エラーを取得するには、MCQのIOUを取得するには、次のコマンドを実行してください。
cd evaluation
python eval_spops.py
また、BEVとの自由形式の会話も許可しています。 click2chatの指示に従って、BEVとチャットしてください。
リリースされる