[artigo] [projeto] [conjunto de dados] [bibtex]
Apresentamos uma formulação moderna de Resposta Incorporada a Perguntas (EQA) como a tarefa de compreender um ambiente suficientemente bem para responder a perguntas sobre ele em linguagem natural. Um agente pode alcançar tal compreensão recorrendo à memória episódica, exemplificada por agentes em óculos inteligentes, ou explorando ativamente o ambiente, como no caso de robôs móveis. Acompanhamos nossa formulação com OpenEQA – o primeiro conjunto de dados de benchmark de vocabulário aberto para EQA que suporta casos de uso de memória episódica e exploração ativa. OpenEQA contém mais de 1.600 perguntas geradas por humanos de alta qualidade, extraídas de mais de 180 ambientes do mundo real. Além do conjunto de dados, também fornecemos um protocolo de avaliação automático baseado em LLM que possui excelente correlação com o julgamento humano. Usando este conjunto de dados e protocolo de avaliação, avaliamos vários modelos básicos de última geração, incluindo GPT-4V, e descobrimos que eles ficam significativamente atrás do desempenho em nível humano. Consequentemente, o OpenEQA destaca-se como um benchmark simples, mensurável e praticamente relevante que representa um desafio considerável para a atual geração de modelos básicos. Esperamos que isso inspire e estimule pesquisas futuras na interseção da IA incorporada, dos agentes conversacionais e dos modelos mundiais.
O conjunto de dados OpenEQA consiste em mais de 1.600 pares de perguntas e respostas
Os pares pergunta-resposta estão disponíveis em data/open-eqa-v0.json e os históricos de episódios podem ser baixados seguindo as instruções aqui.
Visualização: uma ferramenta simples para visualizar amostras no conjunto de dados é fornecida aqui.
O código requer um ambiente python>=3.9
. Recomendamos o uso de conda:
conda create -n openeqa python=3.9
conda activate openeqa
pip install -r requirements.txt
pip install -e .
Várias linhas de base são implementadas em openeqa/baselines. Em geral, as linhas de base são executadas da seguinte forma:
# set an environment variable to your personal API key for the baseline
python openeqa/baselines/ < baseline > .py --dry-run # remove --dry-run to process the full benchmark
Consulte openeqa/baselines/README.md para obter mais detalhes.
A avaliação automática é implementada com GPT-4 usando os prompts encontrados aqui e aqui.
# set the OPENAI_API_KEY environment variable to your personal API key
python evaluate-predictions.py < path/to/results/file.json > --dry-run # remove --dry-run to evaluate on the full benchmark
OpenEQA é lançado sob a licença MIT.
Arjun Majumdar*, Anurag Ajay*, Xiaohan Zhang*, Pranav Putta, Sriram Yenamandra, Mikael Henaff, Sneha Silwal, Paul Mcvay, Oleksandr Maksymets, Sergio Arnaud, Karmesh Yadav, Qiyang Li, Ben Newman, Mohit Sharma, Vincent Berges, Shiqi Zhang , Pulkit Agrawal, Yonatan Bisk, Dhruv Batra, Mrinal Kalakrishnan, Franziska Meier, Chris Paxton, Sasha Sax, Aravind Rajeswaran
@inproceedings{majumdar2023openeqa,
author={Arjun Majumdar, Anurag Ajay, Xiaohan Zhang, Pranav Putta, Sriram Yenamandra, Mikael Henaff, Sneha Silwal, Paul Mcvay, Oleksandr Maksymets, Sergio Arnaud, Karmesh Yadav, Qiyang Li, Ben Newman, Mohit Sharma, Vincent Berges, Shiqi Zhang, Pulkit Agrawal, Yonatan Bisk, Dhruv Batra, Mrinal Kalakrishnan, Franziska Meier, Chris Paxton, Sasha Sax, Aravind Rajeswaran},
title={{OpenEQA: Embodied Question Answering in the Era of Foundation Models}},
booktitle={{CVPR}},
year={2024},
}