talk2bev Descargar - Descargar el código fuente de talk2bev

talk2bev

Otro código fuente

1.0.0

Descargar

Talk2Bev: mapas de vista al ojo de pájaros con el lenguaje

Página del proyecto | Arxiv | Video

Vikrant Dewangan* ¹ , Tushar Choudhary* ¹ , Shivam Chandhok* ² , Shubham Priyadarshan ¹ , Anushka Jain ¹ , Arun K. Singh ³ , Siddharth Srivastava ⁴ , Krishna Murthy Jatavallabhula $^ dagger $ ⁵ , K. Madhava Krishna $^ dagger $ ¹

¹ Instituto Internacional de Tecnología de la Información Hyderabad, ² Universidad de Columbia Británica, ³ Universidad de Tartu ⁴ Tensortour Inc ⁵ MIT-CSAIL

*denota la misma contribución, $^ dagger $ denota el mismo asesoramiento

ICRA 2024

metodología.mp4

Abstracto

Presentamos Talk2Bev, una interfaz de modelo de lenguaje de visión grande (LVLM) para mapas de vista de ojo de pájaro (BEV) comúnmente utilizados en la conducción autónoma.

Si bien los sistemas de percepción existentes para los escenarios de conducción autónoma se han centrado en gran medida en un conjunto predefinido (cerrado) de categorías de objetos y escenarios de conducción, Talk2Bev elimina la necesidad de una capacitación específica de BEV, dependiendo en su lugar en LVLM previos al rendimiento actuado. Esto permite que un solo sistema atienda a una variedad de tareas de conducción autónoma que abarcan razonamiento visual y espacial, prediciendo las intenciones de los actores de tráfico y la toma de decisiones en función de las señales visuales.

Evaluamos extensamente Talk2Bev en una gran cantidad de tareas de comprensión de escenas que dependen tanto de la capacidad de interpretar las consultas de lenguaje natural libre como en la base de estas consultas al contexto visual integrado en el mapa BEV mejorado por el lenguaje. Para habilitar más investigaciones en LVLM para escenarios de conducción autónoma, desarrollamos y liberamos Talk2Bev Bench, una referencia que pasa 1000 escenarios de BEV anotados por humanos, con más de 20,000 preguntas y respuestas de verdad en tierra del datos de Nuscenes.

Preparación de datos

Descargue el conjunto de datos Nuscenes V1.0-Trainval. Nuestro conjunto de datos consta de 2 partes: Talk2Bev-Base y Talk2Bev-Captions, que consisten en base (cultivos, imágenes de perspectiva, centroides de área BEV) y subtítulos de cultivos, respectivamente.

Descargar enlaces

Proporcionamos 2 enlaces al conjunto de datos TALK2BEV ( Talk2Bev-Mini (solo subtítulos) y Talk2Bev-Full ) se proporcionan a continuación. El conjunto de datos está alojado en Google Drive. Descargue el conjunto de datos y extraiga los archivos a la carpeta data .

Nombre	Base	Subtítulos	Banco	Enlace
Hablar 2bev- mini	✓	✗	✗	enlace
Hablar 2bev- lleno	✗	✗	✗	HACER

Si desea generar el conjunto de datos desde cero, siga el proceso aquí. El formato para cada una de las partes de datos se describe en formato.

Evaluación

La evaluación en Talk2Bev ocurre a través de 2 métodos: MCQS (de Talk2Bev -Bench) y operadores espaciales. Usamos GPT-4 para nuestra evaluación. Siga las instrucciones en GPT-4 e inicialice la clave y la organización API en su OS ENV.

ORGANIZATION= < your-organization >
API_KEY= < your-api-key >

Evaluación - MCQS

Para obtener la precisión de un MCQS, ejecute el siguiente comando:

 cd evaluation
python eval_mcq.py

Esto producirá la precisión del MCQS.

Evaluación de operadores espaciales

Para obtener el error de distancia, para un MCQS, ejecute el siguiente comando:

 cd evaluation
python eval_spops.py

Click2chat

También permitimos una conversación de forma libre con el BEV. Siga las instrucciones en Click2Chat para chatear con el BEV.

Talk2Bev Bench

Ser liberado

HACER

Opodín de evaluación de operadores espaciales
Agregar enlaces a BEV Crops-Release Talk2Bev-Full
Lanzamiento Talk2Bev Bench

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-02-26
tamaño 77.03MB
Proviene de Github

Aplicaciones relacionadas

waymo open dataset

2024-11-18
Sunamu

2024-12-14
MySchedule.py

2024-12-15
SmartTube

2024-12-14
chat.petals.dev

2024-11-30
viptools for eslam

2024-12-15

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
waymo open dataset

Otro código fuente

December 2023 Update
Sunamu

Otro código fuente

Release 2.2.0
MySchedule.py

Otro código fuente

Updates to the fetching of week codes
waymo open dataset

Otro código fuente

December 2023 Update
termwind

Otras categorias

v2.3.0
wp functions

Otras categorias

1.0.0

Información relacionada Todo