talk2bev download - talk2bev Source Code Download

talk2bev

Anderer Quellcode

1.0.0

Herunterladen

Talk2bev: Sprachverstärkte Vogelperspektive Karten

Projektseite | Arxiv | Video

Vikrant Dewangan* ¹ , Tushar Choudhary* ¹ , Shivam Chandhok* ² , Shubham Priyadarshan ¹ , Anushka Jain ¹ , Arun K. Singh ³ , Siddharth Srivastava ⁴ , Krishna Murthy Jatavallabhula $^ dagger $ ⁵ , K. Madhava Krishna $^ dagger $ ¹

¹ Internationales Institut für Informationstechnologie Hyderabad, ² Universität von British Columbia, ³ Universität Tartu ⁴ Tensortour Inc ⁵ MIT-CSAIL

*bezeichnet den gleichen Beitrag, $^ dagger $ bezeichnet die gleiche Beratung

ICRA 2024

Methodik.mp4

Abstrakt

Wir stellen Talk2Bev vor, eine LVLM-Schnittstelle (Large Vision-Language Model) für Bird's-Eye View (BEV) -Karten, die üblicherweise beim autonomen Fahren verwendet werden.

Während vorhandene Wahrnehmungssysteme für autonome Fahrszenarien weitgehend auf einen vordefinierten (geschlossenen) Satz von Objektkategorien und Fahrszenarien konzentriert sind, beseitigt Talk2Bev die Notwendigkeit eines spezifischen Trainings und stützt sich stattdessen auf präparant vorgebildete LVLMs. Dies ermöglicht es einem einzelnen System, eine Vielzahl autonomer Fahraufgaben zu erfüllen, die visuelles und räumliches Denken umfassen, die Absichten von Verkehrsakteuren vorhersagen und die Entscheidungsfindung basierend auf visuellen Hinweisen vorhaben.

Wir bewerten Talk2Bev ausgiebig auf einer großen Anzahl von Szenenverständnisaufgaben, die sowohl auf die Fähigkeit, freie Abfragen natürlicher Sprache zu interpretieren, als auch auf die Grundlage dieser Abfragen auf den visuellen Kontext, das in die mit Sprachverhinderung verbesserte Bev-Karte eingebettet ist, zu interpretieren. Um weitere Untersuchungen in LVLMs für autonome Fahrszenarien zu ermöglichen, entwickeln und veröffentlichen wir Talk2Bev-Bench, einen Benchmark-Enkom-, der 1000 von menschlich ankündigte BEV-Szenarien mit mehr als 20.000 Fragen und Boden-Truth-Antworten aus dem Datensatz von Nuscenes übernimmt.

Datenvorbereitung

Bitte laden Sie den Datensatz nuscenes v1.0-trainval herunter. Unser Datensatz besteht aus 2 Teilen-talk2bev-base- und talk2bev-Kapitionen, bestehend aus Basis (Pflanzen, Perspektiven, BEV-Bereichen Zentroiden) bzw. Ernteunterschriften.

Links herunterladen

Wir bieten 2 Links zum Talk2BEV-Datensatz ( talk2bev-mini (nur Bildunterschriften) und talk2bev-full ). Der Datensatz wird auf Google Drive gehostet. Bitte laden Sie den Datensatz herunter und extrahieren Sie die Dateien in den data .

Name	Base	Bildunterschriften	Bank	Link
Talk2Bev- mini	✓	✗	✗	Link
Talk2Bev- voll	✗	✗	✗	Todo

Wenn Sie den Datensatz von Grund auf neu erstellen möchten, befolgen Sie hier den Vorgang. Das Format für jedes der Datenteile wird im Format beschrieben.

Auswertung

Die Bewertung von talk2Bev erfolgt über 2 Methoden - MCQs (von Talk2Bev -Bench) und räumliche Operatoren. Wir verwenden GPT-4 für unsere Bewertung. Bitte befolgen Sie die Anweisungen in GPT-4 und initialisieren Sie den API-Schlüssel und die Organisation in Ihrem Betriebssystem.

ORGANIZATION= < your-organization >
API_KEY= < your-api-key >

Bewertung - MCQs

Um die Genauigkeit für einen MCQS zu erhalten, führen Sie bitte den folgenden Befehl aus:

 cd evaluation
python eval_mcq.py

Dies führt zu der Genauigkeit für die MCQs.

Bewertung von räumlichen Operatoren

Um den Entfernungsfehler zu erhalten, führen Sie bitte den folgenden Befehl aus:

 cd evaluation
python eval_spops.py

Click2chat

Wir erlauben auch freie Gespräche mit dem Bev. Bitte befolgen Sie die Anweisungen in Click2Chat, um mit dem Bev zu chatten.

Talk2Bev-Bench

Freigelassen werden

Todo

Räumer -Operatoren -Bewertungspipeline
Fügen Sie Links zu BEV-Pflanzen hinzu-Release Talk2Bev-Full
Release Talk2Bev-Bench

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ Anderer Quellcode
Aktualisierungszeit 2025-02-26
Größe 77.03MB
Kommt von Github

Ähnliche Anwendungen

waymo open dataset

2024-11-18
Sunamu

2024-12-14
MySchedule.py

2024-12-15
SmartTube

2024-12-14
chat.petals.dev

2024-11-30
viptools for eslam

2024-12-15

talk2bev

Talk2bev: Sprachverstärkte Vogelperspektive Karten

Abstrakt

Datenvorbereitung

Links herunterladen

Auswertung

Bewertung - MCQs

Bewertung von räumlichen Operatoren

Click2chat

Talk2Bev-Bench

Todo

waymo open dataset

Sunamu

MySchedule.py

SmartTube

chat.petals.dev

viptools for eslam

chat.petals.dev

GPT Prompt Templates

GPTyped

waymo open dataset

Sunamu

MySchedule.py

waymo open dataset

termwind

wp functions