[бумага] [проект] [набор данных] [bibtex]
Мы представляем современную формулировку воплощенного ответа на вопросы (EQA) как задачу понимания окружающей среды настолько хорошо, чтобы отвечать на вопросы о ней на естественном языке. Агент может достичь такого понимания, либо опираясь на эпизодическую память, примером которой являются агенты в умных очках, либо активно исследуя окружающую среду, как в случае с мобильными роботами. Мы сопровождаем нашу формулировку OpenEQA — первым эталонным набором данных с открытым словарным запасом для EQA, поддерживающим как эпизодическую память, так и сценарии активного исследования. OpenEQA содержит более 1600 высококачественных вопросов, созданных человеком из более чем 180 реальных сред. В дополнение к набору данных мы также предоставляем автоматический протокол оценки на основе LLM, который отлично коррелирует с человеческими суждениями. Используя этот набор данных и протокол оценки, мы оцениваем несколько современных моделей фундаментов, включая GPT-4V, и обнаруживаем, что они значительно отстают от производительности человеческого уровня. Следовательно, OpenEQA выделяется как простой, измеримый и практически значимый тест, который представляет собой серьезную проблему для текущего поколения базовых моделей. Мы надеемся, что это вдохновляет и стимулирует будущие исследования на стыке воплощенного ИИ, диалоговых агентов и моделей мира.
Набор данных OpenEQA состоит из более чем 1600 пар вопросов и ответов.
Пары вопросов и ответов доступны в data/open-eqa-v0.json, а истории эпизодов можно загрузить, следуя инструкциям здесь.
Предварительный просмотр: здесь представлен простой инструмент для просмотра образцов в наборе данных.
Для кода требуется среда python>=3.9
. Мы рекомендуем использовать conda:
conda create -n openeqa python=3.9
conda activate openeqa
pip install -r requirements.txt
pip install -e .
Несколько базовых показателей реализованы в openeqa/baselines. В целом базовые показатели выполняются следующим образом:
# set an environment variable to your personal API key for the baseline
python openeqa/baselines/ < baseline > .py --dry-run # remove --dry-run to process the full benchmark
Дополнительную информацию см. в openeqa/baselines/README.md.
Автоматическая оценка реализована с помощью GPT-4 с использованием подсказок, найденных здесь и здесь.
# set the OPENAI_API_KEY environment variable to your personal API key
python evaluate-predictions.py < path/to/results/file.json > --dry-run # remove --dry-run to evaluate on the full benchmark
OpenEQA выпускается под лицензией MIT.
Арджун Маджумдар*, Анураг Аджай*, Сяохан Чжан*, Пранав Путта, Шрирам Йенамандра, Микаэль Хенафф, Снеха Силвал, Пол Маквей, Александр Максимец, Серджио Арно, Кармеш Ядав, Циянг Ли, Бен Ньюман, Мохит Шарма, Винсент Бержес, Шики Чжан Пулкит Агравал, Йонатан Биск, Дхрув Батра, Мринал Калакришнан, Франциска Мейер, Крис Пэкстон, Саша Сакс, Аравинд Раджешваран
@inproceedings{majumdar2023openeqa,
author={Arjun Majumdar, Anurag Ajay, Xiaohan Zhang, Pranav Putta, Sriram Yenamandra, Mikael Henaff, Sneha Silwal, Paul Mcvay, Oleksandr Maksymets, Sergio Arnaud, Karmesh Yadav, Qiyang Li, Ben Newman, Mohit Sharma, Vincent Berges, Shiqi Zhang, Pulkit Agrawal, Yonatan Bisk, Dhruv Batra, Mrinal Kalakrishnan, Franziska Meier, Chris Paxton, Sasha Sax, Aravind Rajeswaran},
title={{OpenEQA: Embodied Question Answering in the Era of Foundation Models}},
booktitle={{CVPR}},
year={2024},
}