프로젝트 페이지 | arxiv | 동영상
Vikrant Dewangan* 1 , Tushar Choudhary* 1 , Shivam Chandhok* 2 , Shubham Priyadarshan 1 , Anushka Jain 1 , Arun K. Singh 3 , Siddharth Srivastava 4 , Krishna Murthy Jatavallabhula
1 국제 정보 기술 연구소 하이데라바드, 브리티시 컬럼비아 대학교, 3 University of Tartu 4 Tensortour Inc 5 MIT-CSAIL
*동등한 기여를 나타냅니다.
$^ Dagger $ 동등한 조언을 나타냅니다
ICRA 2024
우리는 자율 주행에 일반적으로 사용되는 BEV (Bird 's-Eye View) 맵을위한 대형 비전 언어 모델 (LVLM) 인터페이스 인 Talk2bev를 소개합니다.
자율 주행 시나리오에 대한 기존 인식 시스템은 사전 정의 된 (폐쇄) 객체 범주 세트 및 운전 시나리오에 크게 초점을 맞추었지만 Talk2Bev는 BEV 특이 교육의 필요성을 제거하여 수행자 미리 훈련 된 LVLM에 의존합니다. 이를 통해 단일 시스템은 시각적 및 공간적 추론을 포함한 다양한 자율 주행 작업, 교통 행위자의 의도를 예측하고 시각적 단서를 기반으로 한 의사 결정을 제공 할 수 있습니다.
우리는 자연 언어 쿼리에서 자유롭게 해석하는 능력에 의존하는 많은 장면 이해 작업에 대한 Talk2bev를 광범위하게 평가하고 이러한 쿼리를 언어 강화 된 BEV 맵에 포함시킨 시각적 컨텍스트에 접지 할 때. 자율 주행 시나리오를위한 LVLM에 대한 추가 연구를 가능하게하기 위해, 우리는 NUSCENES 데이터 세트의 20,000 개 이상의 질문과 근거 진실을 가진 1000 개의 인간 발표 된 BEV 시나리오를 통과하는 벤치 마크 인 Talk2Bev-Bench를 개발하고 발표합니다.
Nuscenes v1.0-trainval 데이터 세트를 다운로드하십시오. 당사의 데이터 세트는 각각 기본 (작물, 원근 이미지, BEV 영역 중심) 및 작물 캡션으로 구성된 Talk2bev-Base 및 Talk2bev-Captions의 두 부분으로 구성됩니다.
우리는 talk2bev 데이터 세트 ( talk2bev-mini (캡션 만) 및 talk2bev-full )에 대한 2 개의 링크를 제공합니다. 데이터 세트는 Google 드라이브에서 호스팅됩니다. 데이터 세트를 다운로드하고 파일을 data
폴더로 추출하십시오.
이름 | 베이스 | 캡션 | 벤치 | 링크 |
---|---|---|---|---|
talk2bev- mini | ✓ | ✗ | ✗ | 링크 |
talk2bev- 가득 | ✗ | ✗ | ✗ | TODO |
처음부터 데이터 세트를 생성하려면 여기에서 프로세스를 따르십시오. 각 데이터 부품의 형식은 형식으로 설명됩니다.
Talk2Bev에 대한 평가는 2 가지 방법 인 MCQ (Talk2Bev -Bench)와 공간 연산자를 통해 발생합니다. 우리는 평가에 GPT-4를 사용합니다. GPT-4의 지침을 따르고 OS Env의 API 키 및 구성을 초기화하십시오.
ORGANIZATION= < your-organization >
API_KEY= < your-api-key >
MCQ의 정확도를 얻으려면 다음 명령을 실행하십시오.
cd evaluation
python eval_mcq.py
이것은 MCQ의 정확도를 산출합니다.
거리 오류를 얻으려면 MCQ의 IOU는 다음 명령을 실행하십시오.
cd evaluation
python eval_spops.py
우리는 또한 BEV와 자유로운 대화를 허용합니다. Bev와 채팅하려면 Click2Chat의 지침을 따르십시오.
출시 될 예정입니다