Page du projet | ArXiv | Vidéo
Vikrant Dewangan * 1 , Tushar Choudhary * 1 , Shivam Chandhok * 2 , Shubham Priyadarshan 1 , Anushka Jain 1 , Arun K. Singh 3 , Siddharth Srivastava 4 , Krishna Murthy Jatavallabhula
1 Institut international des technologies de l'information Hyderabad, 2 Université de la Colombie-Britannique, 3 Université de Tartu 4 Tensortour Inc 5 MIT-CSAIL
* indique une contribution égale,
$ ^ Dagger $ indique un conseil égal
ICRA 2024
Nous introduisons Talk2Bev, une grande interface de modèle de vision (LVLM) pour les cartes de vue d'oeil (BEV) couramment utilisées dans la conduite autonome.
Bien que les systèmes de perception existants pour les scénarios de conduite autonomes se soient largement concentrés sur un ensemble prédéfini (fermé) de catégories d'objets et de scénarios de conduite, TALK2BEV élimine la nécessité d'une formation spécifique à Bev, en s'appuyant plutôt sur des LVLM pré-formées. Cela permet à un système unique de répondre à une variété de tâches de conduite autonomes englobant le raisonnement visuel et spatial, prédisant les intentions des acteurs de la circulation et la prise de décision basée sur des indices visuels.
Nous évaluons largement Talk2Bev sur un grand nombre de tâches de compréhension des scènes qui reposent à la fois sur la capacité d'interpréter gratuitement les requêtes en langage naturel, et dans la mise à la terre de ces requêtes au contexte visuel intégré dans la carte BeV améliorée par le langage. Pour permettre des recherches supplémentaires sur les LVLM pour les scénarios de conduite autonomes, nous développons et publions Talk2Bev-Bench, une enceinte de référence en passant 1000 scénarios BeV annotés par l'homme, avec plus de 20 000 questions et des réponses à la truth au sol de l'ensemble de données Nuscenes.
Veuillez télécharger l'ensemble de données Nuscenes V1.0-Trainval. Notre ensemble de données se compose de 2 parties - talk2Bev-base et talk2Bev-captions, composé de base (cultures, images en perspective, centroïdes de la zone Bev) et des légendes des cultures respectivement.
Nous fournissons 2 liens vers l'ensemble de données talk2Bev ( talk2bev-mini (légendes uniquement) et talk2bev-upll ) sont fournis ci-dessous. L'ensemble de données est hébergé sur Google Drive. Veuillez télécharger l'ensemble de données et extraire les fichiers dans le dossier data
.
Nom | Base | Légendes | Banc | Lien |
---|---|---|---|---|
Talk2bev- mini | ✓ | ✗ | ✗ | lien |
Talk2Bev- complet | ✗ | ✗ | ✗ | FAIRE |
Si vous souhaitez générer l'ensemble de données à partir de zéro, veuillez suivre le processus ici. Le format pour chacune des parties de données est décrit au format.
L'évaluation sur TALK2BEV se produit via 2 méthodes - MCQ (de TAKE2Bev-Bench) et les opérateurs spatiaux. Nous utilisons GPT-4 pour notre évaluation. Veuillez suivre les instructions dans GPT-4 et initialiser la clé API et l'organisation dans votre système d'exploitation env.
ORGANIZATION= < your-organization >
API_KEY= < your-api-key >
Pour obtenir la précision d'un MCQS, veuillez exécuter la commande suivante:
cd evaluation
python eval_mcq.py
Cela donnera la précision des MCQ.
Pour obtenir l'erreur de distance, IOU pour un MCQS, veuillez exécuter la commande suivante:
cd evaluation
python eval_spops.py
Nous permettons également une conversation en forme libre avec le BEV. Veuillez suivre les instructions de Click2Chat pour discuter avec le Bev.
Être libéré