talk2bev Download - talk2bev Code Source Download

talk2bev

Autre code source

1.0.0

Télécharger

Talk2Bev: Cartes de vue d'oiseau améliorée en langue

Page du projet | ArXiv | Vidéo

Vikrant Dewangan * ¹ , Tushar Choudhary * ¹ , Shivam Chandhok * ² , Shubham Priyadarshan ¹ , Anushka Jain ¹ , Arun K. Singh ³ , Siddharth Srivastava ⁴ , Krishna Murthy Jatavallabhula $ ^ Dagger $ ⁵ , K. Madhava Krishna $ ^ Dagger $ ¹

¹ Institut international des technologies de l'information Hyderabad, ² Université de la Colombie-Britannique, ³ Université de Tartu ⁴ Tensortour Inc ⁵ MIT-CSAIL

* indique une contribution égale, $ ^ Dagger $ indique un conseil égal

ICRA 2024

méthodologie.mp4

Abstrait

Nous introduisons Talk2Bev, une grande interface de modèle de vision (LVLM) pour les cartes de vue d'oeil (BEV) couramment utilisées dans la conduite autonome.

Bien que les systèmes de perception existants pour les scénarios de conduite autonomes se soient largement concentrés sur un ensemble prédéfini (fermé) de catégories d'objets et de scénarios de conduite, TALK2BEV élimine la nécessité d'une formation spécifique à Bev, en s'appuyant plutôt sur des LVLM pré-formées. Cela permet à un système unique de répondre à une variété de tâches de conduite autonomes englobant le raisonnement visuel et spatial, prédisant les intentions des acteurs de la circulation et la prise de décision basée sur des indices visuels.

Nous évaluons largement Talk2Bev sur un grand nombre de tâches de compréhension des scènes qui reposent à la fois sur la capacité d'interpréter gratuitement les requêtes en langage naturel, et dans la mise à la terre de ces requêtes au contexte visuel intégré dans la carte BeV améliorée par le langage. Pour permettre des recherches supplémentaires sur les LVLM pour les scénarios de conduite autonomes, nous développons et publions Talk2Bev-Bench, une enceinte de référence en passant 1000 scénarios BeV annotés par l'homme, avec plus de 20 000 questions et des réponses à la truth au sol de l'ensemble de données Nuscenes.

Préparation des données

Veuillez télécharger l'ensemble de données Nuscenes V1.0-Trainval. Notre ensemble de données se compose de 2 parties - talk2Bev-base et talk2Bev-captions, composé de base (cultures, images en perspective, centroïdes de la zone Bev) et des légendes des cultures respectivement.

Télécharger les liens

Nous fournissons 2 liens vers l'ensemble de données talk2Bev ( talk2bev-mini (légendes uniquement) et talk2bev-upll ) sont fournis ci-dessous. L'ensemble de données est hébergé sur Google Drive. Veuillez télécharger l'ensemble de données et extraire les fichiers dans le dossier data .

Nom	Base	Légendes	Banc	Lien
Talk2bev- mini	✓	✗	✗	lien
Talk2Bev- complet	✗	✗	✗	FAIRE

Si vous souhaitez générer l'ensemble de données à partir de zéro, veuillez suivre le processus ici. Le format pour chacune des parties de données est décrit au format.

Évaluation

L'évaluation sur TALK2BEV se produit via 2 méthodes - MCQ (de TAKE2Bev-Bench) et les opérateurs spatiaux. Nous utilisons GPT-4 pour notre évaluation. Veuillez suivre les instructions dans GPT-4 et initialiser la clé API et l'organisation dans votre système d'exploitation env.

ORGANIZATION= < your-organization >
API_KEY= < your-api-key >

Évaluation - MCQS

Pour obtenir la précision d'un MCQS, veuillez exécuter la commande suivante:

 cd evaluation
python eval_mcq.py

Cela donnera la précision des MCQ.

Évaluation des opérateurs spatiaux

Pour obtenir l'erreur de distance, IOU pour un MCQS, veuillez exécuter la commande suivante:

 cd evaluation
python eval_spops.py

Click2chat

Nous permettons également une conversation en forme libre avec le BEV. Veuillez suivre les instructions de Click2Chat pour discuter avec le Bev.

Talk2bev-bench

Être libéré

FAIRE

Pipeline d'évaluation des opérateurs spatiaux
Ajouter des liens vers les cultures de Bev - publiez Talk2Bev-Full
Libérez Talk2Bev-Bench

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-02-26
taille 77.03MB
Provenant de Github

Applications connexes

waymo open dataset

2024-11-18
Sunamu

2024-12-14
MySchedule.py

2024-12-15
SmartTube

2024-12-14
chat.petals.dev

2024-11-30
viptools for eslam

2024-12-15

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
waymo open dataset

Autre code source

December 2023 Update
Sunamu

Autre code source

Release 2.2.0
MySchedule.py

Autre code source

Updates to the fetching of week codes
waymo open dataset

Autre code source

December 2023 Update
termwind

Autres catégories

v2.3.0
wp functions

Autres catégories

1.0.0

Actualités connexes Tout