لينينغ شو · فاسو أغراوال · ويليام لاني · توني جارسيا · أيوش بانسال
شانجيل كيم · صامويل روتا بولو · لورنزو بورزي · بيتر كونتشيدر
ألياز بوزيتش · داهوا لين · مايكل زولهوفر · كريستيان ريتشاردت
ACM سيغراف آسيا 2023
مشهد | الاصدار | كاميرات | نقاط البيع | img | 2 ك EXRs | 1 ك EXRs | 8K+ ملفات JPEG | 4K ملفات JPEG | 2 ك ملفات JPEG | 1 ك ملفات JPEG |
---|---|---|---|---|---|---|---|---|---|---|
شقة | الإصدار 2 | 22 | 180 | 3,960 | 123 جيجابايت | 31 جيجابايت | 92 جيجابايت | 20 جيجابايت | 5 جيجابايت | 1.2 جيجابايت |
مطبخ | الإصدار الثاني* | 19 | 318 | 6,024 | 190 جيجابايت | 48 جيجابايت | 142 جيجابايت | 29 جيجابايت | 8 جيجا | 1.9 جيجابايت |
office1a | الإصدار 1 | 9 | 85 | 765 | 24 جيجابايت | 6 جيجابايت | 15 جيجابايت | 3 جيجابايت | 1 جيجابايت | 0.2 جيجابايت |
office1b | الإصدار 2 | 22 | 71 | 1,562 | 49 جيجابايت | 13 جيجابايت | 35 جيجابايت | 7 جيجابايت | 2 جيجابايت | 0.4 جيجابايت |
مكتب2 | الإصدار 1 | 9 | 233 | 2,097 | 66 جيجابايت | 17 جيجابايت | 46 جيجابايت | 9 جيجابايت | 2 جيجابايت | 0.5 جيجابايت |
office_view1 | الإصدار 2 | 22 | 126 | 2,772 | 87 جيجابايت | 22 جيجابايت | 63 جيجابايت | 14 جيجابايت | 4 غيغابايت | 0.8 جيجابايت |
office_view2 | الإصدار 2 | 22 | 67 | 1,474 | 47 جيجابايت | 12 جيجابايت | 34 جيجابايت | 7 جيجابايت | 2 جيجابايت | 0.5 جيجابايت |
ريفرفيو | الإصدار 2 | 22 | 48 | 1,008 | 34 جيجابايت | 8 جيجا | 24 جيجابايت | 5 جيجابايت | 2 جيجابايت | 0.4 جيجابايت |
منطقة الجلوس | الإصدار 1 | 9 | 168 | 1,512 | 48 جيجابايت | 12 جيجابايت | 36 جيجابايت | 8 جيجا | 2 جيجابايت | 0.5 جيجابايت |
طاولة | الإصدار 1 | 9 | 134 | 1,206 | 38 جيجابايت | 9 جيجابايت | 26 جيجابايت | 6 جيجابايت | 2 جيجابايت | 0.4 جيجابايت |
ورشة عمل | الإصدار 1 | 9 | 700 | 6300 | 198 جيجابايت | 50 جيجابايت | 123 جيجابايت | 27 جيجابايت | 8 جيجا | 2.1 جيجابايت |
raf_emptyroom | الإصدار 2 | 22 | 365 | 8,030 | 252 جيجابايت | 63 جيجابايت | 213 جيجابايت | 45 جيجابايت | 12 جيجابايت | 2.5 جيجابايت |
raf_furnishedroom | الإصدار 2 | 22 | 154 | 3,388 | 106 جيجابايت | 27 جيجابايت | 90 جيجابايت | 19 جيجابايت | 5 جيجابايت | 1.1 جيجابايت |
المجموع | 1,262 جيجابايت | 318 جيجابايت | 939 جيجابايت | 199 جيجابايت | 54 جيجابايت | 12.5 جيجابايت |
* الإصدار الثاني مزود بثلاث كاميرات أقل من التكوين القياسي، أي 19 كاميرا فقط.
أبريل 2024: المشهدان التاليان يرافقان ورقتنا البحثية Real Acoustic Fields (CVPR 2024):
تم التقاط جميع الصور الموجودة في مجموعة البيانات باستخدام Eyeful Tower v1 أو v2 (كما هو محدد في جدول النظرة العامة). يشتمل الإصدار 1 من Eyeful Tower على 9 كاميرات عين السمكة، في حين يشتمل الإصدار 2 من Eyeful Tower على 22 كاميرا ذات ثقب صغير (19 لـ "المطبخ").
تتم استضافة مجموعة بيانات Eyeful Tower على AWS S3، ويمكن استكشافها باستخدام أي متصفح أو تنزيلها باستخدام برنامج قياسي، مثل wget أو curl.
ومع ذلك، للحصول على التنزيل الأسرع والأكثر موثوقية، نوصي باستخدام واجهة سطر أوامر AWS (AWS CLI)، راجع تعليمات تثبيت AWS CLI.
اختياري: تسريع عملية التنزيل من خلال زيادة عدد التنزيلات المتزامنة من 10 إلى 100:
aws configure set default.s3.max_concurrent_requests 100
aws s3 cp --recursive --no-sign-request s3://fb-baas-f32eacb9-8abb-11eb-b2b8-4857dd089e15/EyefulTower/apartment/images-jpeg-1k/ apartment/images-jpeg-1k/
وبدلاً من ذلك، استخدم " sync
" لتجنب نقل الملفات الموجودة:
aws s3 sync --no-sign-request s3://fb-baas-f32eacb9-8abb-11eb-b2b8-4857dd089e15/EyefulTower/apartment/images-jpeg-1k/ apartment/images-jpeg-1k/
بالنسبة للمهتمين بتجربة كاميرات معينة، نوصي بمشاهدة الفيديو المجمع أولاً. سيساعدك هذا على تحديد طرق عرض الكاميرا التي ترغب في استخدامها. على سبيل المثال، بالنسبة لمشهد الشقة هذا باستخدام جهاز الالتقاط v2، قد تفكر في معرفات الكاميرا 19، 20، 21 التي يتم وضعها على نفس الارتفاع.
لمجموعة البيانات في مكتب مطبخ الشقة 1 مكتب 1 ب مكتب 2 مكتب_عرض 1 مكتب_عرض 2 منطقة جلوس مطلة على النهر_ورشة عمل طاولة منطقة؛ يفعل mkdir -p $dataset/images-jpeg-1k; aws s3 cp --recursive --no-sign-request s3://fb-baas-f32eacb9-8abb-11eb-b2b8-4857dd089e15/EyefulTower/$dataset/images-jpeg-1k/ $dataset/images-jpeg-1k /؛منتهي
aws s3 sync --no-sign-request s3://fb-baas-f32eacb9-8abb-11eb-b2b8-4857dd089e15/EyefulTower/ .
يتم تنظيم كل مشهد وفقًا لهذا الهيكل:
apartment │ ├── apartment-final.pdf # Metashape reconstruction report ├── cameras.json # Camera poses in KRT format (see below) ├── cameras.xml # Camera poses exported from Metashape ├── colmap # COLMAP reconstruction exported from Metashape │ ├── images # Undistorted images (full resolution) │ ├── images_2 # Undistorted images (1/2 resolution) │ ├── images_4 # Undistorted images (1/4 resolution) │ ├── images_8 # Undistorted images (1/8 resolution) │ └── sparse # COLMAP reconstruction (for full-res images) ├── images-1k # HDR images at 1K resolution │ ├── 10 # First camera (bottom-most camera) │ │ ├── 10_DSC0001.exr # First image │ │ ├── 10_DSC0010.exr # Second image │ │ ├── [...] # More images │ │ └── 10_DSC1666.exr # Last image │ ├── 11 # Second camera │ │ ├── 11_DSC0001.exr │ │ ├── 11_DSC0010.exr │ │ ├── [...] │ │ └── 11_DSC1666.exr │ ├── [...] # More cameras │ └── 31 # Last camera (top of tower) │ ├── 31_DSC0001.exr │ ├── 31_DSC0010.exr │ ├── [...] │ └── 31_DSC1666.exr ├── images-2k [...] # HDR images at 2K resolution ├── images-jpeg [...] # Full-resolution JPEG images ├── images-jpeg-1k [...] # JPEG images at 1K resolution ├── images-jpeg-2k # JPEG images at 2K resolution │ ├── [10 ... 31] │ ├── [10 ... 31].mp4 # Camera visualization │ └── collage.mp4 # Collage of all cameras ├── images-jpeg-4k [...] # JPEG images at 4K resolution ├── mesh.jpg # Mesh texture (16K×16K) ├── mesh.mtl # Mesh material file ├── mesh.obj # Mesh in OBJ format └── splits.json # Training/testing splits
images-1k/{camera}/*.exr
images-2k/{camera}/*.exr
)تم دمج الصور ذات النطاق الديناميكي العالي من أقواس تعريض خام مكونة من 9 صور.
تم اختزالها إلى دقة "1K" (684 × 1024 بكسل) أو دقة "2K" (1368 × 2048 بكسل).
مساحة اللون: DCI-P3 (خطي)
يتم تخزينها كصور EXR بأرقام الفاصلة العائمة غير المضغوطة 32 بت.
جميع أسماء ملفات الصور تكون مسبوقة باسم الكاميرا، على سبيل المثال 17_DSC0316.exr
.
يتم التقاط الصور التي تنتهي أسماء الملفات بالرقم نفسه في نفس الوقت.
قد تكون بعض الصور مفقودة، على سبيل المثال بسبب الصور غير الواضحة أو الصور التي تظهر عامل الالتقاط الذي تمت إزالته.
import os, cv2, numpy as np# تمكين دعم OpenEXR في OpenCV (https://github.com/opencv/opencv/issues/21326).# يجب تعريف متغير البيئة هذا قبل فتح صورة EXR الأولى.os. environ["OPENCV_IO_ENABLE_OPENEXR"] = "1"# قراءة صورة EXR باستخدام OpenCV.img = cv2.imread("apartment/images-2k/17/17_DSC0316.exr"، cv2.IMREAD_UNCHANGED)# تطبيق مقياس توازن اللون الأبيض (ملاحظة) : يستخدم OpenCV ألوان BGR).coeffs = np.array([0.726097, 1.0, 1.741252]) # Apartment [RGB]img = np.einsum("ijk,k->ijk", img, coeffs[::-1] )# خريطة النغمة باستخدام منحنى sRGB.linear_part = 12.92 * imgexp_part = 1.055 * (np.maximum(img, 0.0) ** (1 / 2.4)) - 0.055img = np.where(img <= 0.0031308, Liner_part, exp_part)# اكتب الصورة الناتجة بتنسيق JPEG.img = np.clip(255 * img, 0.0, 255.0).astype(np.uint8)cv2.imwrite("apartment-17_DSC0316.jpg", img, params=[cv2.IMWRITE_JPEG_QUALITY, 100] )
images-jpeg*/{camera}/*.jpg
)نحن نقدم صور JPEG بأربعة مستويات دقة:
images-jpeg/
: 5784 × 8660 = 50 ميجابكسل — دقة الصورة الأصلية الكاملة
images-jpeg-4k/
: 2736 × 4096 = 11.2 ميجابكسل
images-jpeg-2k/
: 1368 × 2048 = 2.8 ميجابكسل
images-jpeg-1k/
: 684 × 1024 = 0.7 ميجابكسل
صور JPEG هي إصدارات ذات لون أبيض متوازن ومعينة من صور HDR. انظر الكود أعلاه للحصول على التفاصيل.
يستخدم كل مشهد إعدادات توازن اللون الأبيض المستمدة من ColorChecker، والتي تعمل على قياس قنوات RGB بشكل فردي على النحو التالي:
مشهد | عوامل مقياس RGB |
---|---|
شقة | 0.726097, 1.0, 1.741252 |
مطبخ | 0.628143, 1.0, 2.212346 |
office1a | 0.740846, 1.0, 1.750224 |
office1b | 0.725535, 1.0, 1.839938 |
مكتب2 | 0.707729, 1.0, 1.747833 |
office_view1 | 1.029089, 1.0, 1.145235 |
office_view2 | 0.939620, 1.0, 1.273549 |
ريفرفيو | 1.077719, 1.0, 1.145992 |
منطقة الجلوس | 0.616093, 1.0, 2.426888 |
طاولة | 0.653298, 1.0, 2.139514 |
ورشة عمل | 0.709929, 1.0, 1.797705 |
raf_emptyroom | 0.718776, 1.0, 1.787020 |
raf_furnishedroom | 0.721494, 1.0, 1.793423 |
cameras.json
) يحتوي ملف JSON هذا على البنية الأساسية {"KRT": [
، حيث يتمتع كل كائن صورة بالخصائص التالية:
width
: عرض الصورة بالبكسل (عادة 5784)
height
: ارتفاع الصورة بالبكسل (عادة 8660)
cameraId
: مكون اسم الملف لهذه الصورة (على سبيل المثال "0/0_REN0001"
)؛ للحصول على مسار كامل، استخدم "{scene}/{imageFormat}/{cameraId}.{extension}"
من أجل:
scene
: أي من أسماء المشاهد الـ 11،
imageFormat
: أحد "images-2k"
أو "images-jpeg-2k"
أو "images-jpeg-4k"
أو "images-jpeg"
extension
: امتداد الملف، jpg
لملفات JPEG، exr
لصور EXR (HDR)
K
: مصفوفة الكاميرا الداخلية 3×3 للحصول على صورة كاملة الدقة ( عمود رئيسي )
T
: مصفوفة تحويل من العالم إلى الكاميرا 4 × 4 ( عمود رئيسي )
distortionModel
: نموذج تشويه العدسة المستخدم:
"Fisheye"
لصور عين السمكة (Eyeful v1)
"RadialAndTangential"
للصور ذات الثقب (Eyeful v2)
distortion
: معاملات تشويه العدسة للاستخدام مع وظيفة cv2.undistort
الخاصة بـ OpenCV
ملحوظة: نموذج العرض هو نموذج عين السمكة المثالي (على مسافة متساوية).
صور عين السمكة (Eyeful v1): [k1, k2, k3, _, _, _, p1, p2]
الصور ذات الثقب (Eyeful v2): [k1, k2, p1, p2, k3]
(نفس ترتيب cv2.undistort
)
frameId
: مؤشر الموضع أثناء الالتقاط (أعداد صحيحة متتالية)
جميع الصور الملتقطة في نفس الوقت تشترك في نفس frameId
sensorId
: معرف مستشعر Metashape ( المعروف أيضًا باسم الكاميرا) لهذه الصورة
جميع الصور الملتقطة بواسطة نفس الكاميرا تشترك في نفس sensorId
cameraMasterId
(اختياري): معرف الكاميرا Metashape للكاميرا الرئيسية (في معايرة المنصة) في هذا الموضع/الإطار
جميع الصور الملتقطة في نفس الوقت تشترك في نفس cameraMasterId
sensorMasterId
(اختياري): معرف مستشعر Metashape للكاميرا الرئيسية في معايرة المنصة
يجب أن تكون لها نفس القيمة لجميع الكاميرات باستثناء الكاميرا الرئيسية (عادةً "6"
لـ Eyeful v1، "13"
لـ Eyeful v2).
نظام الإحداثيات العالمي: اليد اليمنى، y-up، y=0
هو المستوى الأرضي، الوحدات بالأمتار.
cameras.xml
)تم تصدير بيانات معايرة الكاميرا مباشرة من Metashape، باستخدام تنسيق الملف الخاص بها.
mesh.*
)شبكة منسوجة بتنسيق OBJ، تم تصديرها من Metashape وتم إنشاؤها من صور JPEG كاملة الدقة.
نظام الإحداثيات العالمي: اليد اليمنى، y-up، y=0
هو المستوى الأرضي، الوحدات بالأمتار.
colmap/
)يتم تصدير عمليات إعادة البناء COLMAP هذه من عمليات إعادة البناء الأصلية لدينا باستخدام Metashape 2.1.3 مع المعلمات الافتراضية.
تم عدم تشويه الصور الموجودة ضمن colmap/images
تلقائيًا من الصور images-jpeg
إلى إسقاطات ذات الثقب مع النقطة الرئيسية في مركز الصورة.
لاحظ أن عدم التشويه هذا يؤدي إلى اقتصاص صور عين السمكة بشدة، ويميل إلى إنتاج أحجام صور مختلفة لكاميرات مختلفة.
الصور الموجودة في colmap/images-*
هي إصدارات مختزلة من الصور غير المشوهة ذات الدقة الكاملة، على غرار تنسيق مجموعة بيانات Mip-NeRF 360.
splits.json
) يحتوي على قوائم صور للتدريب ( "train"
) والاختبار ( "test"
).
يتم عرض جميع صور كاميرا واحدة للاختبار: الكاميرا 5
لـ Eyeful v1، والكاميرا 17
لـ Eyeful v2.
3 نوفمبر 2023 – الإصدار الأولي لمجموعة البيانات
18 يناير 2024 - تمت إضافة دقة "1K" (684 × 1024 بكسل) لصور EXR وJPEG للتجارب على نطاق صغير.
19 أبريل 2024 - تمت إضافة غرفتين من مجموعة بيانات Real Acoustic Fields (RAF): raf_emptyroom
و raf_furnishedroom
.
9 أكتوبر 2024 - تمت إضافة عمليات إعادة بناء COLMAP المُصدَّرة مع صور غير مشوهة بتنسيق Mip-NeRF 360، على سبيل المثال متوافق مع gsplat.
إذا كنت تستخدم أي بيانات من مجموعة البيانات هذه أو أي كود تم إصداره في هذا المستودع، فيرجى الاستشهاد بمقالة VR-NeRF.
@InProceedings{VRNeRF، المؤلف = {Linning Xu وVasu Agrawal وWilliam Laney وTony Garcia وAayush Bansal وChangil Kim وRota Bulò وSamuel وLorenzo Porzi وPeter Kontschieder وAljaž Božič وداهوا لين ومايكل زولهوفر وكريستيان ريتشاردت}، العنوان = {{VR-NeRF}: مساحات افتراضية عالية الدقة يمكن المشي فيها}، عنوان الكتاب = {SIGGRAPH Asia Conference Proceedings}، السنة = {2023}، doi = {10.1145/3610548.3618139}، url = {https://vr-nerf .github.io}، }
Creative Commons Attribution-NonCommercial (CC BY-NC) 4.0، كما هو موجود في ملف الترخيص.
[شروط الاستخدام] [سياسة الخصوصية]