[논문] [프로젝트] [데이터세트] [bibtex]
우리는 환경에 대한 질문에 자연어로 답할 수 있을 만큼 환경을 이해하는 작업으로 EQA(Embodied Question Answering)의 현대적인 공식을 제시합니다. 에이전트는 스마트 안경을 착용한 에이전트와 같은 일화 기억을 활용하거나 모바일 로봇의 경우처럼 환경을 적극적으로 탐색함으로써 이러한 이해를 얻을 수 있습니다. 우리는 에피소드 메모리와 활성 탐색 사용 사례를 모두 지원하는 EQA에 대한 최초의 개방형 어휘 벤치마크 데이터 세트인 OpenEQA를 공식화합니다. OpenEQA에는 180개 이상의 실제 환경에서 추출된 1600개 이상의 고품질 인간 생성 질문이 포함되어 있습니다. 데이터 세트 외에도 인간의 판단과 우수한 상관관계를 갖는 자동 LLM 기반 평가 프로토콜도 제공합니다. 이 데이터 세트와 평가 프로토콜을 사용하여 GPT-4V를 포함한 여러 최첨단 기반 모델을 평가하고 인간 수준의 성능보다 크게 뒤떨어져 있음을 발견했습니다. 결과적으로 OpenEQA는 현재 세대의 기초 모델에 상당한 과제를 제기하는 간단하고 측정 가능하며 실질적으로 관련성이 높은 벤치마크로 돋보입니다. 우리는 이것이 구현된 AI, 대화 에이전트 및 세계 모델의 교차점에서 미래 연구에 영감을 주고 자극하기를 바랍니다.
OpenEQA 데이터 세트는 1600개 이상의 질문 답변 쌍으로 구성됩니다.
질문-답변 쌍은 data/open-eqa-v0.json에서 사용할 수 있으며 여기 지침에 따라 에피소드 기록을 다운로드할 수 있습니다.
미리보기: 데이터세트의 샘플을 볼 수 있는 간단한 도구가 여기에 제공됩니다.
코드에는 python>=3.9
환경이 필요합니다. Conda를 사용하는 것이 좋습니다.
conda create -n openeqa python=3.9
conda activate openeqa
pip install -r requirements.txt
pip install -e .
openeqa/baselines에는 여러 기준선이 구현되어 있습니다. 일반적으로 기준선은 다음과 같이 실행됩니다.
# set an environment variable to your personal API key for the baseline
python openeqa/baselines/ < baseline > .py --dry-run # remove --dry-run to process the full benchmark
자세한 내용은 openeqa/baselines/README.md를 참조하세요.
자동 평가는 여기 및 여기에 있는 프롬프트를 사용하여 GPT-4로 구현됩니다.
# set the OPENAI_API_KEY environment variable to your personal API key
python evaluate-predictions.py < path/to/results/file.json > --dry-run # remove --dry-run to evaluate on the full benchmark
OpenEQA는 MIT 라이선스에 따라 출시됩니다.
Arjun Majumdar*, Anurag Ajay*, Xiaohan Zhang*, Pranav Putta, Sriram Yenamandra, Mikael Henaff, Sneha Silwal, Paul Mcvay, Oleksandr Maksymets, Sergio Arnaud, Karmesh Yadav, Qiyang Li, Ben Newman, Mohit Sharma, Vincent Berges, Shiqi Zhang , 풀킷 아그라왈, 요나탄 비스크, 드루브 바트라, Mrinal Kalakrishnan, Franziska Meier, Chris Paxton, Sasha Sax, Aravind Rajeswaran
@inproceedings{majumdar2023openeqa,
author={Arjun Majumdar, Anurag Ajay, Xiaohan Zhang, Pranav Putta, Sriram Yenamandra, Mikael Henaff, Sneha Silwal, Paul Mcvay, Oleksandr Maksymets, Sergio Arnaud, Karmesh Yadav, Qiyang Li, Ben Newman, Mohit Sharma, Vincent Berges, Shiqi Zhang, Pulkit Agrawal, Yonatan Bisk, Dhruv Batra, Mrinal Kalakrishnan, Franziska Meier, Chris Paxton, Sasha Sax, Aravind Rajeswaran},
title={{OpenEQA: Embodied Question Answering in the Era of Foundation Models}},
booktitle={{CVPR}},
year={2024},
}