Página del proyecto | Arxiv | Video
Vikrant Dewangan* 1 , Tushar Choudhary* 1 , Shivam Chandhok* 2 , Shubham Priyadarshan 1 , Anushka Jain 1 , Arun K. Singh 3 , Siddharth Srivastava 4 , Krishna Murthy Jatavallabhula
1 Instituto Internacional de Tecnología de la Información Hyderabad, 2 Universidad de Columbia Británica, 3 Universidad de Tartu 4 Tensortour Inc 5 MIT-CSAIL
*denota la misma contribución,
$^ dagger $ denota el mismo asesoramiento
ICRA 2024
Presentamos Talk2Bev, una interfaz de modelo de lenguaje de visión grande (LVLM) para mapas de vista de ojo de pájaro (BEV) comúnmente utilizados en la conducción autónoma.
Si bien los sistemas de percepción existentes para los escenarios de conducción autónoma se han centrado en gran medida en un conjunto predefinido (cerrado) de categorías de objetos y escenarios de conducción, Talk2Bev elimina la necesidad de una capacitación específica de BEV, dependiendo en su lugar en LVLM previos al rendimiento actuado. Esto permite que un solo sistema atienda a una variedad de tareas de conducción autónoma que abarcan razonamiento visual y espacial, prediciendo las intenciones de los actores de tráfico y la toma de decisiones en función de las señales visuales.
Evaluamos extensamente Talk2Bev en una gran cantidad de tareas de comprensión de escenas que dependen tanto de la capacidad de interpretar las consultas de lenguaje natural libre como en la base de estas consultas al contexto visual integrado en el mapa BEV mejorado por el lenguaje. Para habilitar más investigaciones en LVLM para escenarios de conducción autónoma, desarrollamos y liberamos Talk2Bev Bench, una referencia que pasa 1000 escenarios de BEV anotados por humanos, con más de 20,000 preguntas y respuestas de verdad en tierra del datos de Nuscenes.
Descargue el conjunto de datos Nuscenes V1.0-Trainval. Nuestro conjunto de datos consta de 2 partes: Talk2Bev-Base y Talk2Bev-Captions, que consisten en base (cultivos, imágenes de perspectiva, centroides de área BEV) y subtítulos de cultivos, respectivamente.
Proporcionamos 2 enlaces al conjunto de datos TALK2BEV ( Talk2Bev-Mini (solo subtítulos) y Talk2Bev-Full ) se proporcionan a continuación. El conjunto de datos está alojado en Google Drive. Descargue el conjunto de datos y extraiga los archivos a la carpeta data
.
Nombre | Base | Subtítulos | Banco | Enlace |
---|---|---|---|---|
Hablar 2bev- mini | ✓ | ✗ | ✗ | enlace |
Hablar 2bev- lleno | ✗ | ✗ | ✗ | HACER |
Si desea generar el conjunto de datos desde cero, siga el proceso aquí. El formato para cada una de las partes de datos se describe en formato.
La evaluación en Talk2Bev ocurre a través de 2 métodos: MCQS (de Talk2Bev -Bench) y operadores espaciales. Usamos GPT-4 para nuestra evaluación. Siga las instrucciones en GPT-4 e inicialice la clave y la organización API en su OS ENV.
ORGANIZATION= < your-organization >
API_KEY= < your-api-key >
Para obtener la precisión de un MCQS, ejecute el siguiente comando:
cd evaluation
python eval_mcq.py
Esto producirá la precisión del MCQS.
Para obtener el error de distancia, para un MCQS, ejecute el siguiente comando:
cd evaluation
python eval_spops.py
También permitimos una conversación de forma libre con el BEV. Siga las instrucciones en Click2Chat para chatear con el BEV.
Ser liberado