download do talk2bev - download de código fonte talk2bev

talk2bev

Outro código-fonte

1.0.0

Baixar

Talk2bev: mapas de vista para os olhos do pássaro com idiomas

Página do projeto | Arxiv | Vídeo

Vikrant Dewangan* ¹ , Tushar Choudhary* ¹ , Shivam Chandhok* ² , Shubham Priyadarshan ¹ , Anushka Jain ¹ , Arun K. Singh ³ , Siddharth Srivastava ⁴ , Krishna Murthy Jatavallabhula $^ DAGGER $ ⁵ , K. Madhava Krishna $^ DAGGER $ ¹

¹ Instituto Internacional de Tecnologia da Informação Hyderabad, ² Universidade da Colúmbia Britânica, ³ Universidade de Tartu ⁴ Tensortour Inc ⁵ MIT-Csail

*indica a mesma contribuição, $^ DAGGER $ denota aconselhamento igual

ICRA 2024

Metodologia.MP4

Resumo

Introduzimos o Talk2Bev, uma grande interface do Modelo de Linguagem de Visão (LVLM) para mapas de vista para os olhos (BEV) comumente usados em direção autônoma.

Embora os sistemas de percepção existentes para cenários de direção autônomos tenham se concentrado amplamente em um conjunto predefinido (fechado) de categorias de objetos e cenários de direção, o Talk2Bev elimina a necessidade de treinamento específico do BEV, confiando em LVLMs pré-treinados com performance. Isso permite que um único sistema atenda a uma variedade de tarefas de direção autônoma que abrangem o raciocínio visual e espacial, prevendo as intenções dos atores de trânsito e a tomada de decisões com base em pistas visuais.

Avaliamos extensivamente o Talk2Bev sobre um grande número de tarefas de entendimento de cenas que dependem da capacidade de interpretar as consultas livres de linguagem natural e, ao fundamentar essas consultas no contexto visual incorporado ao mapa Bev com idioma. Para permitir pesquisas adicionais em LVLMs para cenários de direção autônomos, desenvolvemos e lançamos o conversação do Talk2BEV, uma referência que encomenda 1000 cenários de BEV anunciados pelo homem, com mais de 20.000 perguntas e respostas de verdade no conjunto de dados do NusCenes.

Preparação de dados

Faça o download do conjunto de dados NusCenenes v1.0-Trainval. Nosso conjunto de dados consiste em 2 partes-Talk2Bev-Base e Talk2Bev-Captions, consistindo em base (culturas, imagens de perspectiva, centróides da área de Bev) e legendas, respectivamente.

Baixar links

Fornecemos 2 links para o conjunto de dados do Talk2Bev (somente Talk2Bev-Mini (somente legendas) e Talk2Bev-Full ). O conjunto de dados está hospedado no Google Drive. Faça o download do conjunto de dados e extraia os arquivos para a pasta data .

Nome	Base	Legendas	Banco	Link
Talk2bev- mini	✓	✗	✗	link
Talk2bev- completo	✗	✗	✗	PENDÊNCIA

Se você deseja gerar o conjunto de dados do zero, siga o processo aqui. O formato para cada uma das peças de dados é descrito no formato.

Avaliação

A avaliação no Talk2Bev acontece através de 2 métodos - MCQs (do talk2BEV -banch) e os operadores espaciais. Usamos o GPT-4 para nossa avaliação. Siga as instruções no GPT-4 e inicialize a chave e a organização da API em seu OS Env.

ORGANIZATION= < your-organization >
API_KEY= < your-api-key >

Avaliação - MCQS

Para obter a precisão de um MCQS, execute o seguinte comando:

 cd evaluation
python eval_mcq.py

Isso produzirá a precisão para os MCQs.

Avaliando operadores espaciais

Para obter o erro de distância, IOU para um MCQS, execute o seguinte comando:

 cd evaluation
python eval_spops.py

Click2chat

Também permitimos uma conversa de forma livre com o BEV. Siga as instruções no click2chat para conversar com o BEV.

Talk2bev-banco

A ser liberado

PENDÊNCIA

Operadores espaciais Pipeline de avaliação
Adicione links para as culturas BEV-Libere o talk2bev-full
Libere o talk2bev-banco

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-02-26
tamanho 77.03MB
Vindo de Github

Aplicativos Relacionados

waymo open dataset

2024-11-18
Sunamu

2024-12-14
MySchedule.py

2024-12-15
SmartTube

2024-12-14
chat.petals.dev

2024-11-30
viptools for eslam

2024-12-15

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
waymo open dataset

Outro código-fonte

December 2023 Update
Sunamu

Outro código-fonte

Release 2.2.0
MySchedule.py

Outro código-fonte

Updates to the fetching of week codes
waymo open dataset

Outro código-fonte

December 2023 Update
termwind

Outras categorias

v2.3.0
wp functions

Outras categorias

1.0.0

Informações Relacionadas Todos