[กระดาษ] [โครงการ] [ชุดข้อมูล] [bibtex]
เรานำเสนอรูปแบบการตอบคำถามแบบรวม (EQA) ที่ทันสมัย ซึ่งเป็นงานในการทำความเข้าใจสภาพแวดล้อมที่ดีพอที่จะตอบคำถามเกี่ยวกับสภาพแวดล้อมนั้นด้วยภาษาธรรมชาติ เจ้าหน้าที่สามารถบรรลุความเข้าใจดังกล่าวได้โดยการใช้หน่วยความจำแบบเหตุการณ์ ตัวอย่างโดยเจ้าหน้าที่บนแว่นตาอัจฉริยะ หรือโดยการสำรวจสภาพแวดล้อมอย่างกระตือรือร้น เช่น ในกรณีของหุ่นยนต์เคลื่อนที่ เราทำงานร่วมกับ OpenEQA ซึ่งเป็นชุดข้อมูลเกณฑ์มาตรฐานคำศัพท์แบบเปิดชุดแรกสำหรับ EQA ที่รองรับทั้งหน่วยความจำแบบตอนและกรณีการใช้งานการสำรวจที่ใช้งานอยู่ OpenEQA มีคำถามคุณภาพสูงที่มนุษย์สร้างขึ้นมากกว่า 1,600 คำถาม ซึ่งมาจากสภาพแวดล้อมจริงมากกว่า 180 รายการ นอกเหนือจากชุดข้อมูลแล้ว เรายังมีโปรโตคอลการประเมินที่ขับเคลื่อนโดย LLM อัตโนมัติซึ่งมีความสัมพันธ์ที่ดีเยี่ยมกับการตัดสินของมนุษย์ เมื่อใช้ชุดข้อมูลและโปรโตคอลการประเมินผลนี้ เราจะประเมินโมเดลพื้นฐานที่ล้ำสมัยหลายรุ่น รวมถึง GPT-4V และพบว่าแบบจำลองเหล่านี้ล้าหลังประสิทธิภาพระดับมนุษย์อย่างมาก ด้วยเหตุนี้ OpenEQA จึงมีความโดดเด่นในฐานะเกณฑ์มาตรฐานที่ตรงไปตรงมา วัดผลได้ และมีความเกี่ยวข้องในทางปฏิบัติ ซึ่งเป็นความท้าทายอย่างมากต่อโมเดลพื้นฐานรุ่นปัจจุบัน เราหวังว่าสิ่งนี้จะเป็นแรงบันดาลใจและกระตุ้นการวิจัยในอนาคตที่จุดตัดของ Embodied AI เจ้าหน้าที่การสนทนา และโมเดลโลก
ชุดข้อมูล OpenEQA ประกอบด้วยคู่คำตอบคำถามมากกว่า 1,600 คู่
คู่คำถาม-คำตอบมีอยู่ใน data/open-eqa-v0.json และสามารถดาวน์โหลดประวัติตอนได้โดยทำตามคำแนะนำที่นี่
ดูตัวอย่าง: เครื่องมือง่ายๆ สำหรับการดูตัวอย่างในชุดข้อมูลมีให้ที่นี่
รหัสต้องการสภาพแวดล้อม python>=3.9
เราแนะนำให้ใช้ conda:
conda create -n openeqa python=3.9
conda activate openeqa
pip install -r requirements.txt
pip install -e .
เส้นพื้นฐานหลายเส้นถูกนำมาใช้ใน openeqa/เส้นพื้นฐาน โดยทั่วไป เส้นพื้นฐานจะดำเนินการดังนี้:
# set an environment variable to your personal API key for the baseline
python openeqa/baselines/ < baseline > .py --dry-run # remove --dry-run to process the full benchmark
ดู openeqa/baselines/README.md สำหรับรายละเอียดเพิ่มเติม
การประเมินอัตโนมัติถูกนำมาใช้กับ GPT-4 โดยใช้ข้อความแจ้งที่พบ ที่นี่ และ ที่นี่
# set the OPENAI_API_KEY environment variable to your personal API key
python evaluate-predictions.py < path/to/results/file.json > --dry-run # remove --dry-run to evaluate on the full benchmark
OpenEQA ได้รับการเผยแพร่ภายใต้ใบอนุญาต MIT
อาร์จัน มาจุมดาร์*, อนุรัก อาเจย์*, เซียวฮาน จาง*, ปรานาฟ ปุตตา, ศรีรัม เยนามันดรา, มิคาเอล เฮนาฟ, สเนฮา ซิลวาล, พอล แม็คเวย์, โอเล็กซานเดอร์ มักซีเม็ตส์, เซอร์จิโอ อาร์โนด์, คาร์เมช ยาดาฟ, ชี่หยาง ลี, เบน นิวแมน, โมฮิต ชาร์มา, วินเซนต์ เบอร์เจส, ชิชี จาง , พูลกิต อักราวัล, โยนาธาน บิสก์, ดรูฟ บาทรา, มิรินัล คาลากฤษนัน, ฟรานซิสกา ไมเออร์, คริส แพกซ์ตัน, ซาชา แซ็กซ์, อรวินด์ ราเจสวาราน
@inproceedings{majumdar2023openeqa,
author={Arjun Majumdar, Anurag Ajay, Xiaohan Zhang, Pranav Putta, Sriram Yenamandra, Mikael Henaff, Sneha Silwal, Paul Mcvay, Oleksandr Maksymets, Sergio Arnaud, Karmesh Yadav, Qiyang Li, Ben Newman, Mohit Sharma, Vincent Berges, Shiqi Zhang, Pulkit Agrawal, Yonatan Bisk, Dhruv Batra, Mrinal Kalakrishnan, Franziska Meier, Chris Paxton, Sasha Sax, Aravind Rajeswaran},
title={{OpenEQA: Embodied Question Answering in the Era of Foundation Models}},
booktitle={{CVPR}},
year={2024},
}