[論文] [プロジェクト] [データセット] [bibtex]
私たちは、環境に関する質問に自然言語で答えることができるほど環境を理解するタスクとして、現代的な身体的質問応答 (EQA) の定式化を提示します。エージェントは、スマート グラス上のエージェントに代表されるように、エピソード記憶を活用するか、移動ロボットの場合のように環境を積極的に探索することによって、そのような理解を達成できます。私たちは、エピソード記憶と能動的探索の両方のユースケースをサポートする EQA 用の初のオープン語彙ベンチマーク データセットである OpenEQA を使用して定式化を行います。 OpenEQA には、180 を超える現実世界の環境から抽出された、人間が作成した 1600 を超える高品質な質問が含まれています。データセットに加えて、人間の判断と優れた相関関係を持つ、LLM を利用した自動評価プロトコルも提供します。このデータセットと評価プロトコルを使用して、GPT-4V を含むいくつかの最先端の基礎モデルを評価したところ、人間レベルのパフォーマンスよりも大幅に遅れていることがわかりました。その結果、OpenEQA は、現世代の基礎モデルに大きな課題をもたらす、簡単で測定可能で、実際に関連性のあるベンチマークとして際立っています。これが、身体型 AI、会話型エージェント、世界モデルの交差点における将来の研究にインスピレーションを与え、刺激することを願っています。
OpenEQA データセットは 1600 以上の質問と回答のペアで構成されています
質問と回答のペアは data/open-eqa-v0.json で入手でき、エピソード履歴はここの手順に従ってダウンロードできます。
プレビュー:データセット内のサンプルを表示する簡単なツールがここに提供されています。
コードにはpython>=3.9
環境が必要です。 conda の使用をお勧めします。
conda create -n openeqa python=3.9
conda activate openeqa
pip install -r requirements.txt
pip install -e .
いくつかのベースラインが openeqa/baselines に実装されています。一般に、ベースラインは次のように実行されます。
# set an environment variable to your personal API key for the baseline
python openeqa/baselines/ < baseline > .py --dry-run # remove --dry-run to process the full benchmark
詳細については、openeqa/baselines/README.md を参照してください。
自動評価は、こことここにあるプロンプトを使用して GPT-4 で実装されます。
# set the OPENAI_API_KEY environment variable to your personal API key
python evaluate-predictions.py < path/to/results/file.json > --dry-run # remove --dry-run to evaluate on the full benchmark
OpenEQA は MIT ライセンスに基づいてリリースされています。
アルジュン・マジュムダル*、アヌラグ・アジェイ*、シャオハン・チャン*、プラナフ・プッタ、スリラム・エナマンドラ、ミカエル・ヘナフ、スネハ・シルワル、ポール・マクベイ、オレクサンドル・マクシメッツ、セルジオ・アルノー、カルメッシュ・ヤダブ、チーヤン・リー、ベン・ニューマン、モヒト・シャルマ、ヴィンセント・ベルジェス、シーキ・チャン、プルキット・アグラワル、ヨナタン・ビスク、ドゥルブ・バトラ、ムリナル・カラクリシュナン、フランツィスカ・マイヤー、クリス・パクストン、サーシャ・サックス、アラヴィンド・ラジェスワラン
@inproceedings{majumdar2023openeqa,
author={Arjun Majumdar, Anurag Ajay, Xiaohan Zhang, Pranav Putta, Sriram Yenamandra, Mikael Henaff, Sneha Silwal, Paul Mcvay, Oleksandr Maksymets, Sergio Arnaud, Karmesh Yadav, Qiyang Li, Ben Newman, Mohit Sharma, Vincent Berges, Shiqi Zhang, Pulkit Agrawal, Yonatan Bisk, Dhruv Batra, Mrinal Kalakrishnan, Franziska Meier, Chris Paxton, Sasha Sax, Aravind Rajeswaran},
title={{OpenEQA: Embodied Question Answering in the Era of Foundation Models}},
booktitle={{CVPR}},
year={2024},
}