[ورقة] [مشروع] [مجموعة بيانات] [بيبتكس]
نقدم صياغة حديثة للإجابة على الأسئلة المجسدة (EQA) كمهمة فهم البيئة بشكل جيد بما يكفي للإجابة على الأسئلة المتعلقة بها باللغة الطبيعية. يمكن للوكيل أن يحقق مثل هذا الفهم إما من خلال الاعتماد على الذاكرة العرضية، المتمثلة في العملاء الذين يرتدون نظارات ذكية، أو من خلال استكشاف البيئة بنشاط، كما في حالة الروبوتات المتنقلة. نحن نرافق صياغتنا مع OpenEQA - أول مجموعة بيانات معيارية مفتوحة المفردات لـ EQA تدعم كلاً من الذاكرة العرضية وحالات استخدام الاستكشاف النشط. يحتوي OpenEQA على أكثر من 1600 سؤال عالي الجودة تم إنشاؤه بواسطة الإنسان مأخوذة من أكثر من 180 بيئة حقيقية. بالإضافة إلى مجموعة البيانات، نقدم أيضًا بروتوكول تقييم تلقائي مدعوم من LLM والذي يتمتع بعلاقة ممتازة مع الحكم البشري. باستخدام مجموعة البيانات وبروتوكول التقييم، نقوم بتقييم العديد من نماذج الأساس الحديثة بما في ذلك GPT-4V، ونجد أنها متخلفة بشكل كبير عن الأداء على المستوى البشري. وبالتالي، يبرز OpenEQA كمعيار مباشر وقابل للقياس وذو صلة من الناحية العملية ويشكل تحديًا كبيرًا للجيل الحالي من نماذج الأساس. نأمل أن يلهم هذا ويحفز الأبحاث المستقبلية عند تقاطع الذكاء الاصطناعي المتجسد، ووكلاء المحادثة، والنماذج العالمية.
تتكون مجموعة بيانات OpenEQA من أكثر من 1600 زوج من إجابات الأسئلة
تتوفر أزواج الأسئلة والإجابات في data/open-eqa-v0.json ويمكن تنزيل تواريخ الحلقات باتباع التعليمات هنا.
المعاينة: تتوفر هنا أداة بسيطة لعرض العينات في مجموعة البيانات.
يتطلب الكود بيئة python>=3.9
. نوصي باستخدام كوندا:
conda create -n openeqa python=3.9
conda activate openeqa
pip install -r requirements.txt
pip install -e .
يتم تنفيذ العديد من خطوط الأساس في openeqa/baselines. بشكل عام، يتم تشغيل خطوط الأساس على النحو التالي:
# set an environment variable to your personal API key for the baseline
python openeqa/baselines/ < baseline > .py --dry-run # remove --dry-run to process the full benchmark
راجع openeqa/baselines/README.md لمزيد من التفاصيل.
يتم تنفيذ التقييم التلقائي باستخدام GPT-4 باستخدام المطالبات الموجودة هنا وهنا.
# set the OPENAI_API_KEY environment variable to your personal API key
python evaluate-predictions.py < path/to/results/file.json > --dry-run # remove --dry-run to evaluate on the full benchmark
تم إصدار OpenEQA بموجب ترخيص MIT.
أرجون ماجومدار*، أنوراغ أجاي*، شياوهان تشانغ*، براناف بوتا، سريرام يناماندرا، ميكائيل هيناف، سنيها سيلوال، بول ماكفاي، أولكسندر ماكسيميتس، سيرجيو أرنو، كارمش ياداف، تشيانغ لي، بن نيومان، موهيت شارما، فنسنت بيرجيس، شيكي تشانغ , بولكيت أغراوال، يوناتان بيسك، دروف باترا، مرينال كالاكريشنان، فرانزيسكا ماير، كريس باكستون، ساشا ساكس، أرافيند راجيسواران
@inproceedings{majumdar2023openeqa,
author={Arjun Majumdar, Anurag Ajay, Xiaohan Zhang, Pranav Putta, Sriram Yenamandra, Mikael Henaff, Sneha Silwal, Paul Mcvay, Oleksandr Maksymets, Sergio Arnaud, Karmesh Yadav, Qiyang Li, Ben Newman, Mohit Sharma, Vincent Berges, Shiqi Zhang, Pulkit Agrawal, Yonatan Bisk, Dhruv Batra, Mrinal Kalakrishnan, Franziska Meier, Chris Paxton, Sasha Sax, Aravind Rajeswaran},
title={{OpenEQA: Embodied Question Answering in the Era of Foundation Models}},
booktitle={{CVPR}},
year={2024},
}