Página do projeto | Arxiv | Vídeo
Vikrant Dewangan* 1 , Tushar Choudhary* 1 , Shivam Chandhok* 2 , Shubham Priyadarshan 1 , Anushka Jain 1 , Arun K. Singh 3 , Siddharth Srivastava 4 , Krishna Murthy Jatavallabhula
1 Instituto Internacional de Tecnologia da Informação Hyderabad, 2 Universidade da Colúmbia Britânica, 3 Universidade de Tartu 4 Tensortour Inc 5 MIT-Csail
*indica a mesma contribuição,
$^ DAGGER $ denota aconselhamento igual
ICRA 2024
Introduzimos o Talk2Bev, uma grande interface do Modelo de Linguagem de Visão (LVLM) para mapas de vista para os olhos (BEV) comumente usados em direção autônoma.
Embora os sistemas de percepção existentes para cenários de direção autônomos tenham se concentrado amplamente em um conjunto predefinido (fechado) de categorias de objetos e cenários de direção, o Talk2Bev elimina a necessidade de treinamento específico do BEV, confiando em LVLMs pré-treinados com performance. Isso permite que um único sistema atenda a uma variedade de tarefas de direção autônoma que abrangem o raciocínio visual e espacial, prevendo as intenções dos atores de trânsito e a tomada de decisões com base em pistas visuais.
Avaliamos extensivamente o Talk2Bev sobre um grande número de tarefas de entendimento de cenas que dependem da capacidade de interpretar as consultas livres de linguagem natural e, ao fundamentar essas consultas no contexto visual incorporado ao mapa Bev com idioma. Para permitir pesquisas adicionais em LVLMs para cenários de direção autônomos, desenvolvemos e lançamos o conversação do Talk2BEV, uma referência que encomenda 1000 cenários de BEV anunciados pelo homem, com mais de 20.000 perguntas e respostas de verdade no conjunto de dados do NusCenes.
Faça o download do conjunto de dados NusCenenes v1.0-Trainval. Nosso conjunto de dados consiste em 2 partes-Talk2Bev-Base e Talk2Bev-Captions, consistindo em base (culturas, imagens de perspectiva, centróides da área de Bev) e legendas, respectivamente.
Fornecemos 2 links para o conjunto de dados do Talk2Bev (somente Talk2Bev-Mini (somente legendas) e Talk2Bev-Full ). O conjunto de dados está hospedado no Google Drive. Faça o download do conjunto de dados e extraia os arquivos para a pasta data
.
Nome | Base | Legendas | Banco | Link |
---|---|---|---|---|
Talk2bev- mini | ✓ | ✗ | ✗ | link |
Talk2bev- completo | ✗ | ✗ | ✗ | PENDÊNCIA |
Se você deseja gerar o conjunto de dados do zero, siga o processo aqui. O formato para cada uma das peças de dados é descrito no formato.
A avaliação no Talk2Bev acontece através de 2 métodos - MCQs (do talk2BEV -banch) e os operadores espaciais. Usamos o GPT-4 para nossa avaliação. Siga as instruções no GPT-4 e inicialize a chave e a organização da API em seu OS Env.
ORGANIZATION= < your-organization >
API_KEY= < your-api-key >
Para obter a precisão de um MCQS, execute o seguinte comando:
cd evaluation
python eval_mcq.py
Isso produzirá a precisão para os MCQs.
Para obter o erro de distância, IOU para um MCQS, execute o seguinte comando:
cd evaluation
python eval_spops.py
Também permitimos uma conversa de forma livre com o BEV. Siga as instruções no click2chat para conversar com o BEV.
A ser liberado