[article] [projet] [ensemble de données] [bibtex]
Nous présentons une formulation moderne de la réponse aux questions incorporées (EQA) comme la tâche de comprendre suffisamment bien un environnement pour répondre aux questions le concernant en langage naturel. Un agent peut parvenir à une telle compréhension soit en s’appuyant sur la mémoire épisodique, comme en témoignent les agents portant des lunettes intelligentes, soit en explorant activement l’environnement, comme dans le cas des robots mobiles. Nous accompagnons notre formulation avec OpenEQA – le premier ensemble de données de référence à vocabulaire ouvert pour l'EQA prenant en charge à la fois les cas d'utilisation de la mémoire épisodique et de l'exploration active. OpenEQA contient plus de 1 600 questions générées par des humains de haute qualité et tirées de plus de 180 environnements réels. En plus de l'ensemble de données, nous fournissons également un protocole d'évaluation automatique alimenté par LLM qui présente une excellente corrélation avec le jugement humain. À l’aide de cet ensemble de données et de ce protocole d’évaluation, nous évaluons plusieurs modèles de fondation de pointe, notamment GPT-4V, et constatons qu’ils sont considérablement en retard par rapport aux performances au niveau humain. Par conséquent, OpenEQA se distingue comme une référence simple, mesurable et pertinente dans la pratique, qui pose un défi considérable à la génération actuelle de modèles de fondation. Nous espérons que cela inspirera et stimulera les recherches futures à l’intersection de l’IA incorporée, des agents conversationnels et des modèles mondiaux.
L'ensemble de données OpenEQA se compose de plus de 1 600 paires de questions-réponses.
Les paires questions-réponses sont disponibles dans data/open-eqa-v0.json et les historiques des épisodes peuvent être téléchargés en suivant les instructions ici.
Aperçu : un outil simple permettant d'afficher des échantillons dans l'ensemble de données est fourni ici.
Le code nécessite un environnement python>=3.9
. Nous vous recommandons d'utiliser conda :
conda create -n openeqa python=3.9
conda activate openeqa
pip install -r requirements.txt
pip install -e .
Plusieurs lignes de base sont implémentées dans openeqa/baselines. En général, les lignes de base sont exécutées comme suit :
# set an environment variable to your personal API key for the baseline
python openeqa/baselines/ < baseline > .py --dry-run # remove --dry-run to process the full benchmark
Voir openeqa/baselines/README.md pour plus de détails.
L'évaluation automatique est implémentée avec GPT-4 à l'aide des invites trouvées ici et ici.
# set the OPENAI_API_KEY environment variable to your personal API key
python evaluate-predictions.py < path/to/results/file.json > --dry-run # remove --dry-run to evaluate on the full benchmark
OpenEQA est publié sous la licence MIT.
Arjun Majumdar*, Anurag Ajay*, Xiaohan Zhang*, Pranav Putta, Sriram Yenamandra, Mikael Henaff, Sneha Silwal, Paul Mcvay, Oleksandr Maksymets, Sergio Arnaud, Karmesh Yadav, Qiyang Li, Ben Newman, Mohit Sharma, Vincent Berges, Shiqi Zhang , Pulkit Agrawal, Yonatan Bisk, Dhruv Batra, Mrinal Kalakrishnan, Franziska Meier, Chris Paxton, Sasha Sax, Aravind Rajeswaran
@inproceedings{majumdar2023openeqa,
author={Arjun Majumdar, Anurag Ajay, Xiaohan Zhang, Pranav Putta, Sriram Yenamandra, Mikael Henaff, Sneha Silwal, Paul Mcvay, Oleksandr Maksymets, Sergio Arnaud, Karmesh Yadav, Qiyang Li, Ben Newman, Mohit Sharma, Vincent Berges, Shiqi Zhang, Pulkit Agrawal, Yonatan Bisk, Dhruv Batra, Mrinal Kalakrishnan, Franziska Meier, Chris Paxton, Sasha Sax, Aravind Rajeswaran},
title={{OpenEQA: Embodied Question Answering in the Era of Foundation Models}},
booktitle={{CVPR}},
year={2024},
}