[論文] [專案] [資料集] [bibtex]
我們提出了體現問答(EQA)的現代表述,作為充分理解環境以用自然語言回答有關環境的問題的任務。智能體可以透過利用情景記憶(例如智慧眼鏡上的智能體)或透過主動探索環境(如移動機器人)來實現這種理解。我們使用 OpenEQA 來配合我們的製定,這是 EQA 的第一個開放詞彙基準資料集,支援情境記憶和主動探索用例。 OpenEQA 包含來自 180 多個現實世界環境的 1600 多個高品質的人工生成問題。除了資料集之外,我們還提供了一個由 LLM 支援的自動評估協議,該協議與人類判斷具有良好的相關性。使用該數據集和評估協議,我們評估了包括 GPT-4V 在內的幾種最先進的基礎模型,發現它們明顯落後於人類層面的表現。因此,OpenEQA 作為一個簡單、可測量且實用的基準脫穎而出,對當前世代基礎模型提出了相當大的挑戰。我們希望這能夠啟發和刺激未來在具體人工智慧、對話代理和世界模型的交叉領域的研究。
OpenEQA 資料集由 1600 多個問題答案對組成
問答對可在 data/open-eqa-v0.json 中找到,並且可以按照此處的說明下載劇集歷史記錄。
預覽:此處提供了一個用於查看資料集中樣本的簡單工具。
程式碼需要python>=3.9
環境。我們建議使用 conda:
conda create -n openeqa python=3.9
conda activate openeqa
pip install -r requirements.txt
pip install -e .
openeqa/baselines 中實作了多個基線。一般來說,基線運行如下:
# set an environment variable to your personal API key for the baseline
python openeqa/baselines/ < baseline > .py --dry-run # remove --dry-run to process the full benchmark
有關更多詳細信息,請參閱 openeqa/baselines/README.md。
自動評估是透過 GPT-4 使用此處和此處的提示來實現的。
# set the OPENAI_API_KEY environment variable to your personal API key
python evaluate-predictions.py < path/to/results/file.json > --dry-run # remove --dry-run to evaluate on the full benchmark
OpenEQA 在 MIT 許可證下發布。
Arjun Majumdar*、Anurag Ajay*、張小涵*、Pranav Putta、Sriram Yenamandra、Mikael Henaff、Sneha Silwal、Paul Mcvay、Oleksandr Maksymets、Sergio Arnaud、Karmesh Yadav、李啟陽、Ben Newman、Mohit Sharma、Vincent 普爾、張世、張世奇特·阿格拉瓦爾、約納坦·比斯克、德魯夫·巴特拉、馬裡納爾·卡拉克里斯南、弗蘭齊斯卡·梅爾、克里斯·帕克斯頓、薩沙·薩克斯、阿拉文德·拉傑斯瓦蘭
@inproceedings{majumdar2023openeqa,
author={Arjun Majumdar, Anurag Ajay, Xiaohan Zhang, Pranav Putta, Sriram Yenamandra, Mikael Henaff, Sneha Silwal, Paul Mcvay, Oleksandr Maksymets, Sergio Arnaud, Karmesh Yadav, Qiyang Li, Ben Newman, Mohit Sharma, Vincent Berges, Shiqi Zhang, Pulkit Agrawal, Yonatan Bisk, Dhruv Batra, Mrinal Kalakrishnan, Franziska Meier, Chris Paxton, Sasha Sax, Aravind Rajeswaran},
title={{OpenEQA: Embodied Question Answering in the Era of Foundation Models}},
booktitle={{CVPR}},
year={2024},
}