Projektseite | Arxiv | Video
Vikrant Dewangan* 1 , Tushar Choudhary* 1 , Shivam Chandhok* 2 , Shubham Priyadarshan 1 , Anushka Jain 1 , Arun K. Singh 3 , Siddharth Srivastava 4 , Krishna Murthy Jatavallabhula
1 Internationales Institut für Informationstechnologie Hyderabad, 2 Universität von British Columbia, 3 Universität Tartu 4 Tensortour Inc 5 MIT-CSAIL
*bezeichnet den gleichen Beitrag,
$^ dagger $ bezeichnet die gleiche Beratung
ICRA 2024
Wir stellen Talk2Bev vor, eine LVLM-Schnittstelle (Large Vision-Language Model) für Bird's-Eye View (BEV) -Karten, die üblicherweise beim autonomen Fahren verwendet werden.
Während vorhandene Wahrnehmungssysteme für autonome Fahrszenarien weitgehend auf einen vordefinierten (geschlossenen) Satz von Objektkategorien und Fahrszenarien konzentriert sind, beseitigt Talk2Bev die Notwendigkeit eines spezifischen Trainings und stützt sich stattdessen auf präparant vorgebildete LVLMs. Dies ermöglicht es einem einzelnen System, eine Vielzahl autonomer Fahraufgaben zu erfüllen, die visuelles und räumliches Denken umfassen, die Absichten von Verkehrsakteuren vorhersagen und die Entscheidungsfindung basierend auf visuellen Hinweisen vorhaben.
Wir bewerten Talk2Bev ausgiebig auf einer großen Anzahl von Szenenverständnisaufgaben, die sowohl auf die Fähigkeit, freie Abfragen natürlicher Sprache zu interpretieren, als auch auf die Grundlage dieser Abfragen auf den visuellen Kontext, das in die mit Sprachverhinderung verbesserte Bev-Karte eingebettet ist, zu interpretieren. Um weitere Untersuchungen in LVLMs für autonome Fahrszenarien zu ermöglichen, entwickeln und veröffentlichen wir Talk2Bev-Bench, einen Benchmark-Enkom-, der 1000 von menschlich ankündigte BEV-Szenarien mit mehr als 20.000 Fragen und Boden-Truth-Antworten aus dem Datensatz von Nuscenes übernimmt.
Bitte laden Sie den Datensatz nuscenes v1.0-trainval herunter. Unser Datensatz besteht aus 2 Teilen-talk2bev-base- und talk2bev-Kapitionen, bestehend aus Basis (Pflanzen, Perspektiven, BEV-Bereichen Zentroiden) bzw. Ernteunterschriften.
Wir bieten 2 Links zum Talk2BEV-Datensatz ( talk2bev-mini (nur Bildunterschriften) und talk2bev-full ). Der Datensatz wird auf Google Drive gehostet. Bitte laden Sie den Datensatz herunter und extrahieren Sie die Dateien in den data
.
Name | Base | Bildunterschriften | Bank | Link |
---|---|---|---|---|
Talk2Bev- mini | ✓ | ✗ | ✗ | Link |
Talk2Bev- voll | ✗ | ✗ | ✗ | Todo |
Wenn Sie den Datensatz von Grund auf neu erstellen möchten, befolgen Sie hier den Vorgang. Das Format für jedes der Datenteile wird im Format beschrieben.
Die Bewertung von talk2Bev erfolgt über 2 Methoden - MCQs (von Talk2Bev -Bench) und räumliche Operatoren. Wir verwenden GPT-4 für unsere Bewertung. Bitte befolgen Sie die Anweisungen in GPT-4 und initialisieren Sie den API-Schlüssel und die Organisation in Ihrem Betriebssystem.
ORGANIZATION= < your-organization >
API_KEY= < your-api-key >
Um die Genauigkeit für einen MCQS zu erhalten, führen Sie bitte den folgenden Befehl aus:
cd evaluation
python eval_mcq.py
Dies führt zu der Genauigkeit für die MCQs.
Um den Entfernungsfehler zu erhalten, führen Sie bitte den folgenden Befehl aus:
cd evaluation
python eval_spops.py
Wir erlauben auch freie Gespräche mit dem Bev. Bitte befolgen Sie die Anweisungen in Click2Chat, um mit dem Bev zu chatten.
Freigelassen werden