[论文] [项目] [数据集] [bibtex]
我们提出了体现问答(EQA)的现代表述,作为充分理解环境以用自然语言回答有关环境的问题的任务。智能体可以通过利用情景记忆(例如智能眼镜上的智能体)或通过主动探索环境(如移动机器人)来实现这种理解。我们使用 OpenEQA 来配合我们的制定,这是 EQA 的第一个开放词汇基准数据集,支持情景记忆和主动探索用例。 OpenEQA 包含来自 180 多个现实世界环境的 1600 多个高质量的人工生成问题。除了数据集之外,我们还提供了一个由 LLM 支持的自动评估协议,该协议与人类判断具有良好的相关性。使用该数据集和评估协议,我们评估了包括 GPT-4V 在内的几种最先进的基础模型,发现它们明显落后于人类水平的表现。因此,OpenEQA 作为一个简单、可测量且实用的基准脱颖而出,对当前一代基础模型提出了相当大的挑战。我们希望这能够启发和刺激未来在具体人工智能、对话代理和世界模型的交叉领域的研究。
OpenEQA 数据集由 1600 多个问题答案对组成
问答对可在 data/open-eqa-v0.json 中找到,并且可以按照此处的说明下载剧集历史记录。
预览:此处提供了一个用于查看数据集中样本的简单工具。
该代码需要python>=3.9
环境。我们建议使用 conda:
conda create -n openeqa python=3.9
conda activate openeqa
pip install -r requirements.txt
pip install -e .
openeqa/baselines 中实现了多个基线。一般来说,基线运行如下:
# set an environment variable to your personal API key for the baseline
python openeqa/baselines/ < baseline > .py --dry-run # remove --dry-run to process the full benchmark
有关更多详细信息,请参阅 openeqa/baselines/README.md。
自动评估是通过 GPT-4 使用此处和此处的提示来实现的。
# set the OPENAI_API_KEY environment variable to your personal API key
python evaluate-predictions.py < path/to/results/file.json > --dry-run # remove --dry-run to evaluate on the full benchmark
OpenEQA 在 MIT 许可证下发布。
Arjun Majumdar*、Anurag Ajay*、张晓涵*、Pranav Putta、Sriram Yenamandra、Mikael Henaff、Sneha Silwal、Paul Mcvay、Oleksandr Maksymets、Sergio Arnaud、Karmesh Yadav、李启阳、Ben Newman、Mohit Sharma、Vincent Berges、张世奇, 普尔基特·阿格拉瓦尔、约纳坦·比斯克、德鲁夫·巴特拉、马里纳尔·卡拉克里斯南、弗兰齐斯卡·梅尔、克里斯·帕克斯顿、萨沙·萨克斯、阿拉文德·拉杰斯瓦兰
@inproceedings{majumdar2023openeqa,
author={Arjun Majumdar, Anurag Ajay, Xiaohan Zhang, Pranav Putta, Sriram Yenamandra, Mikael Henaff, Sneha Silwal, Paul Mcvay, Oleksandr Maksymets, Sergio Arnaud, Karmesh Yadav, Qiyang Li, Ben Newman, Mohit Sharma, Vincent Berges, Shiqi Zhang, Pulkit Agrawal, Yonatan Bisk, Dhruv Batra, Mrinal Kalakrishnan, Franziska Meier, Chris Paxton, Sasha Sax, Aravind Rajeswaran},
title={{OpenEQA: Embodied Question Answering in the Era of Foundation Models}},
booktitle={{CVPR}},
year={2024},
}