[kertas] [proyek] [kumpulan data] [bibtex]
Kami menyajikan formulasi modern dari Embodied Question Answering (EQA) sebagai tugas memahami suatu lingkungan dengan cukup baik untuk menjawab pertanyaan tentangnya dalam bahasa alami. Seorang agen dapat mencapai pemahaman seperti itu dengan memanfaatkan memori episodik, yang dicontohkan oleh agen yang memakai kacamata pintar, atau dengan secara aktif menjelajahi lingkungan, seperti dalam kasus robot bergerak. Kami melengkapi formulasi kami dengan OpenEQA – kumpulan data tolok ukur kosakata terbuka pertama untuk EQA yang mendukung memori episodik dan kasus penggunaan eksplorasi aktif. OpenEQA berisi lebih dari 1600 pertanyaan berkualitas tinggi yang dihasilkan manusia yang diambil dari lebih dari 180 lingkungan dunia nyata. Selain kumpulan data, kami juga menyediakan protokol evaluasi otomatis yang didukung LLM yang memiliki korelasi sangat baik dengan penilaian manusia. Dengan menggunakan kumpulan data dan protokol evaluasi ini, kami mengevaluasi beberapa model dasar yang canggih termasuk GPT-4V, dan menemukan bahwa model tersebut jauh tertinggal dibandingkan kinerja tingkat manusia. Akibatnya, OpenEQA menonjol sebagai tolok ukur yang lugas, terukur, dan relevan secara praktis yang menimbulkan tantangan besar bagi model pondasi generasi saat ini. Kami berharap hal ini menginspirasi dan merangsang penelitian masa depan di titik persimpangan antara AI yang Terwujud, agen percakapan, dan model dunia.
Kumpulan data OpenEQA terdiri dari 1600+ pasangan jawaban pertanyaan
Pasangan pertanyaan-jawaban tersedia di data/open-eqa-v0.json dan riwayat episode dapat diunduh dengan mengikuti petunjuk di sini.
Pratinjau: Alat sederhana untuk melihat sampel dalam kumpulan data disediakan di sini.
Kode ini memerlukan lingkungan python>=3.9
. Kami merekomendasikan menggunakan conda:
conda create -n openeqa python=3.9
conda activate openeqa
pip install -r requirements.txt
pip install -e .
Beberapa baseline diimplementasikan dalam openeqa/baselines. Secara umum, baseline dijalankan sebagai berikut:
# set an environment variable to your personal API key for the baseline
python openeqa/baselines/ < baseline > .py --dry-run # remove --dry-run to process the full benchmark
Lihat openeqa/baselines/README.md untuk lebih jelasnya.
Evaluasi otomatis diterapkan dengan GPT-4 menggunakan petunjuk yang ditemukan di sini dan di sini.
# set the OPENAI_API_KEY environment variable to your personal API key
python evaluate-predictions.py < path/to/results/file.json > --dry-run # remove --dry-run to evaluate on the full benchmark
OpenEQA dirilis di bawah Lisensi MIT.
Arjun Majumdar*, Anurag Ajay*, Xiaohan Zhang*, Pranav Putta, Sriram Yenamandra, Mikael Henaff, Sneha Silwal, Paul Mcvay, Oleksandr Maksymets, Sergio Arnaud, Karmesh Yadav, Qiyang Li, Ben Newman, Mohit Sharma, Vincent Berges, Shiqi Zhang , Pulkit Agrawal, Yonatan Bisk, Dhruv Batra, Mrinal Kalakrishnan, Franziska Meier, Chris Paxton, Sasha Sax, Aravind Rajeswaran
@inproceedings{majumdar2023openeqa,
author={Arjun Majumdar, Anurag Ajay, Xiaohan Zhang, Pranav Putta, Sriram Yenamandra, Mikael Henaff, Sneha Silwal, Paul Mcvay, Oleksandr Maksymets, Sergio Arnaud, Karmesh Yadav, Qiyang Li, Ben Newman, Mohit Sharma, Vincent Berges, Shiqi Zhang, Pulkit Agrawal, Yonatan Bisk, Dhruv Batra, Mrinal Kalakrishnan, Franziska Meier, Chris Paxton, Sasha Sax, Aravind Rajeswaran},
title={{OpenEQA: Embodied Question Answering in the Era of Foundation Models}},
booktitle={{CVPR}},
year={2024},
}