หลินหนิง ซู · วาซู อากราวัล · วิลเลียม ลานีย์ · โทนี่ การ์เซีย · อายูช บันซัล
ชางกิล คิม · ซามูเอล โรตา บูโล · ลอเรนโซ ปอร์ซี · ปีเตอร์ คอนต์ชีเดอร์
Aljaž Božič · Dahua Lin · Michael Zollhöfer · Christian Richardt
พลเอกซิกกราฟ เอเชีย 2023
ฉาก | เวอร์ชั่น | กล้อง | ตำแหน่ง | รูปภาพ | 2ก EXR | 1ก EXR | 8K+ JPEG | 4เค JPEG | 2ก JPEG | 1ก JPEG |
---|---|---|---|---|---|---|---|---|---|---|
อพาร์ทเมนต์ | เวอร์ชัน 2 | 22 | 180 | 3,960 | 123GB | 31 กิกะไบต์ | 92 กิกะไบต์ | 20 กิกะไบต์ | 5 กิกะไบต์ | 1.2 กิกะไบต์ |
ครัว | เวอร์ชัน 2* | 19 | 318 | 6,024 | 190GB | 48GB | 142GB | 29 กิกะไบต์ | 8 กิกะไบต์ | 1.9GB |
สำนักงาน1a | เวอร์ชัน 1 | 9 | 85 | 765 | 24GB | 6 กิกะไบต์ | 15 กิกะไบต์ | 3GB | 1 กิกะไบต์ | 0.2 กิกะไบต์ |
สำนักงาน1b | เวอร์ชัน 2 | 22 | 71 | 1,562 | 49GB | 13 กิกะไบต์ | 35 กิกะไบต์ | 7 กิกะไบต์ | 2 กิกะไบต์ | 0.4 กิกะไบต์ |
สำนักงาน2 | เวอร์ชัน 1 | 9 | 233 | 2,097 | 66GB | 17 กิกะไบต์ | 46GB | 9 กิกะไบต์ | 2 กิกะไบต์ | 0.5 กิกะไบต์ |
office_view1 | เวอร์ชัน 2 | 22 | 126 | 2,772 | 87 กิกะไบต์ | 22 กิกะไบต์ | 63GB | 14 กิกะไบต์ | 4 กิกะไบต์ | 0.8 กิกะไบต์ |
office_view2 | เวอร์ชัน 2 | 22 | 67 | 1,474 | 47 กิกะไบต์ | 12 กิกะไบต์ | 34GB | 7 กิกะไบต์ | 2 กิกะไบต์ | 0.5 กิกะไบต์ |
วิวแม่น้ำ | เวอร์ชัน 2 | 22 | 48 | 1,008 | 34GB | 8 กิกะไบต์ | 24GB | 5 กิกะไบต์ | 2 กิกะไบต์ | 0.4 กิกะไบต์ |
ที่นั่ง_พื้นที่ | เวอร์ชัน 1 | 9 | 168 | 1,512 | 48GB | 12 กิกะไบต์ | 36GB | 8 กิกะไบต์ | 2 กิกะไบต์ | 0.5 กิกะไบต์ |
โต๊ะ | เวอร์ชัน 1 | 9 | 134 | 1,206 | 38GB | 9 กิกะไบต์ | 26GB | 6 กิกะไบต์ | 2 กิกะไบต์ | 0.4 กิกะไบต์ |
การประชุมเชิงปฏิบัติการ | เวอร์ชัน 1 | 9 | 700 | 6,300 | 198GB | 50GB | 123GB | 27 กิกะไบต์ | 8 กิกะไบต์ | 2.1 กิกะไบต์ |
raf_emptyroom | เวอร์ชัน 2 | 22 | 365 | 8,030 | 252GB | 63GB | 213GB | 45 กิกะไบต์ | 12 กิกะไบต์ | 2.5 กิกะไบต์ |
raf_furnishedroom | เวอร์ชัน 2 | 22 | 154 | 3,388 | 106GB | 27 กิกะไบต์ | 90 กิกะไบต์ | 19 กิกะไบต์ | 5 กิกะไบต์ | 1.1 กิกะไบต์ |
ทั้งหมด | 1,262GB | 318GB | 939GB | 199GB | 54GB | 12.5 กิกะไบต์ |
* v2 มีกล้องน้อยกว่าการกำหนดค่ามาตรฐาน 3 ตัว เช่น มีกล้องเพียง 19 ตัว
เมษายน 2024: สองฉากต่อไปนี้มาพร้อมกับรายงาน Real Acoustic Fields (CVPR 2024) ของเรา:
รูปภาพทั้งหมดในชุดข้อมูลถ่ายด้วย Eyeful Tower v1 หรือ v2 (ตามที่ระบุในตารางภาพรวม) Eyeful Tower v1 ประกอบด้วยกล้องฟิชอาย 9 ตัว ในขณะที่ Eyeful Tower v2 ประกอบด้วยกล้องรูเข็ม 22 ตัว (19 ตัวสำหรับ "ห้องครัว")
ชุดข้อมูล Eyeful Tower โฮสต์อยู่บน AWS S3 และสามารถสำรวจได้ด้วยเบราว์เซอร์ใดก็ได้ หรือดาวน์โหลดด้วยซอฟต์แวร์มาตรฐาน เช่น wget หรือ curl
อย่างไรก็ตาม เพื่อการดาวน์โหลดที่รวดเร็วและน่าเชื่อถือที่สุด เราขอแนะนำให้ใช้อินเทอร์เฟซบรรทัดคำสั่ง AWS (AWS CLI) ดูคำแนะนำในการติดตั้ง AWS CLI
ทางเลือก: เพิ่มความเร็วในการดาวน์โหลดโดยเพิ่มจำนวนการดาวน์โหลดพร้อมกันจาก 10 เป็น 100:
aws configure set default.s3.max_concurrent_requests 100
aws s3 cp --recursive --no-sign-request s3://fb-baas-f32eacb9-8abb-11eb-b2b8-4857dd089e15/EyefulTower/apartment/images-jpeg-1k/ apartment/images-jpeg-1k/
หรือใช้ " sync
" เพื่อหลีกเลี่ยงการถ่ายโอนไฟล์ที่มีอยู่:
aws s3 sync --no-sign-request s3://fb-baas-f32eacb9-8abb-11eb-b2b8-4857dd089e15/EyefulTower/apartment/images-jpeg-1k/ apartment/images-jpeg-1k/
สำหรับผู้ที่สนใจทดลองใช้กล้องรุ่นใดรุ่นหนึ่ง เราขอแนะนำให้ดูวิดีโอคอลลาจก่อน ซึ่งจะช่วยคุณระบุมุมมองกล้องที่คุณต้องการใช้ ตัวอย่างเช่น สำหรับฉากอพาร์ทเมนต์นี้ที่ใช้อุปกรณ์จับภาพ v2 คุณอาจพิจารณารหัสกล้อง 19, 20, 21 ซึ่งวางอยู่ที่ความสูงเท่ากัน
สำหรับชุดข้อมูลในห้องครัวอพาร์ทเมนต์ office1a office1b office2 office_view1 office_view2 ริเวอร์วิวที่นั่ง_พื้นที่ การประชุมเชิงปฏิบัติการตาราง; ทำ mkdir -p $ชุดข้อมูล/รูปภาพ-jpeg-1k; aws s3 cp --recursive -- ไม่มีการร้องขอเครื่องหมาย s3://fb-baas-f32eacb9-8abb-11eb-b2b8-4857dd089e15/EyefulTower/$dataset/images-jpeg-1k/ $dataset/images-jpeg-1k /;เสร็จแล้ว
aws s3 sync --no-sign-request s3://fb-baas-f32eacb9-8abb-11eb-b2b8-4857dd089e15/EyefulTower/ .
แต่ละฉากจะถูกจัดเรียงตามโครงสร้างนี้:
apartment │ ├── apartment-final.pdf # Metashape reconstruction report ├── cameras.json # Camera poses in KRT format (see below) ├── cameras.xml # Camera poses exported from Metashape ├── colmap # COLMAP reconstruction exported from Metashape │ ├── images # Undistorted images (full resolution) │ ├── images_2 # Undistorted images (1/2 resolution) │ ├── images_4 # Undistorted images (1/4 resolution) │ ├── images_8 # Undistorted images (1/8 resolution) │ └── sparse # COLMAP reconstruction (for full-res images) ├── images-1k # HDR images at 1K resolution │ ├── 10 # First camera (bottom-most camera) │ │ ├── 10_DSC0001.exr # First image │ │ ├── 10_DSC0010.exr # Second image │ │ ├── [...] # More images │ │ └── 10_DSC1666.exr # Last image │ ├── 11 # Second camera │ │ ├── 11_DSC0001.exr │ │ ├── 11_DSC0010.exr │ │ ├── [...] │ │ └── 11_DSC1666.exr │ ├── [...] # More cameras │ └── 31 # Last camera (top of tower) │ ├── 31_DSC0001.exr │ ├── 31_DSC0010.exr │ ├── [...] │ └── 31_DSC1666.exr ├── images-2k [...] # HDR images at 2K resolution ├── images-jpeg [...] # Full-resolution JPEG images ├── images-jpeg-1k [...] # JPEG images at 1K resolution ├── images-jpeg-2k # JPEG images at 2K resolution │ ├── [10 ... 31] │ ├── [10 ... 31].mp4 # Camera visualization │ └── collage.mp4 # Collage of all cameras ├── images-jpeg-4k [...] # JPEG images at 4K resolution ├── mesh.jpg # Mesh texture (16K×16K) ├── mesh.mtl # Mesh material file ├── mesh.obj # Mesh in OBJ format └── splits.json # Training/testing splits
images-1k/{camera}/*.exr
และ images-2k/{camera}/*.exr
)ภาพที่มีช่วงไดนามิกสูงผสานจากวงเล็บรับแสงดิบ 9 ภาพ
ลดขนาดลงเป็นความละเอียด “1K” (684×1024 พิกเซล) หรือความละเอียด “2K” (1368×2048 พิกเซล)
ปริภูมิสี: DCI-P3 (เชิงเส้น)
จัดเก็บเป็นอิมเมจ EXR พร้อมตัวเลขทศนิยม 32 บิตที่ไม่มีการบีบอัด
ชื่อไฟล์ภาพทั้งหมดจะขึ้นต้นด้วยชื่อกล้อง เช่น 17_DSC0316.exr
ภาพที่มีชื่อไฟล์ลงท้ายด้วยหมายเลขเดียวกันจะถูกบันทึกพร้อมกัน
รูปภาพบางรูปอาจหายไป เช่น เนื่องจากรูปภาพไม่ชัดหรือรูปภาพที่แสดงตัวดำเนินการจับภาพที่ถูกลบออก
import os, cv2, numpy as np# เปิดใช้งานการสนับสนุน OpenEXR ใน OpenCV (https://github.com/opencv/opencv/issues/21326).# จำเป็นต้องกำหนดตัวแปรสภาพแวดล้อมนี้ก่อนจึงจะเปิดอิมเมจ EXR แรกได้ สภาพแวดล้อม["OPENCV_IO_ENABLE_OPENEXR"] = "1"# อ่านอิมเมจ EXR โดยใช้ OpenCV.img = cv2.imread("apartment/images-2k/17/17_DSC0316.exr", cv2.IMREAD_UNCHANGED)# ใช้การปรับสมดุลสีขาว (หมายเหตุ : OpenCV ใช้สี BGR).coeffs = np.array([0.726097, 1.0, 1.741252]) # Apartment [RGB]img = np.einsum("ijk,k->ijk", img, coeffs[::-1] )# Tonemap โดยใช้ sRGB curve.linear_part = 12.92 * imgexp_part = 1.055 * (np.maximum(img, 0.0) ** (1 / 2.4)) - 0.055img = np.where(img <= 0.0031308, linear_part, exp_part)# เขียนภาพที่ได้เป็น JPEG.img = np.clip(255 * img, 0.0, 255.0).astype(np.uint8)cv2.imwrite("apartment-17_DSC0316.jpg", img, params=[cv2.IMWRITE_JPEG_QUALITY, 100] )
images-jpeg*/{camera}/*.jpg
)เราจัดเตรียมภาพ JPEG ที่ความละเอียดสี่ระดับ:
images-jpeg/
: 5784 × 8660 = 50 ล้านพิกเซล — ความละเอียดภาพต้นฉบับเต็ม
images-jpeg-4k/
: 2736 × 4096 = 11.2 ล้านพิกเซล
images-jpeg-2k/
: 1368 × 2048 = 2.8 ล้านพิกเซล
images-jpeg-1k/
: 684 × 1024 = 0.7 ล้านพิกเซล
รูปภาพ JPEG เป็นรูปภาพ HDR เวอร์ชันที่มีสมดุลสีขาวและปรับโทนสี ดูรหัสด้านบนสำหรับรายละเอียด
แต่ละฉากใช้การตั้งค่าสมดุลสีขาวที่ได้รับจาก ColorChecker ซึ่งจะปรับขนาดช่อง RGB แยกกันดังนี้:
ฉาก | ปัจจัยระดับ RGB |
---|---|
อพาร์ทเมนต์ | 0.726097, 1.0, 1.741252 |
ครัว | 0.628143, 1.0, 2.212346 |
สำนักงาน1a | 0.740846, 1.0, 1.750224 |
สำนักงาน1b | 0.725535, 1.0, 1.839938 |
สำนักงาน2 | 0.707729, 1.0, 1.747833 |
office_view1 | 1.029089, 1.0, 1.145235 |
office_view2 | 0.939620, 1.0, 1.273549 |
วิวแม่น้ำ | 1.077719, 1.0, 1.145992 |
ที่นั่ง_พื้นที่ | 0.616093, 1.0, 2.426888 |
โต๊ะ | 0.653298, 1.0, 2.139514 |
การประชุมเชิงปฏิบัติการ | 0.709929, 1.0, 1.797705 |
raf_emptyroom | 0.718776, 1.0, 1.787020 |
raf_furnishedroom | 0.721494, 1.0, 1.793423 |
cameras.json
) ไฟล์ JSON นี้มีโครงสร้างพื้นฐาน {"KRT": [
โดยที่แต่ละออบเจ็กต์รูปภาพมีคุณสมบัติดังต่อไปนี้:
width
: ความกว้างของภาพ เป็นพิกเซล (ปกติ 5784)
height
: ความสูงของภาพ เป็นพิกเซล (ปกติ 8660)
cameraId
: ส่วนประกอบชื่อไฟล์สำหรับภาพนี้ (เช่น "0/0_REN0001"
); หากต้องการรับเส้นทางที่สมบูรณ์ ให้ใช้ "{scene}/{imageFormat}/{cameraId}.{extension}"
สำหรับ:
scene
: ชื่อฉากใดก็ได้จาก 11 ฉาก
imageFormat
: หนึ่งใน "images-2k"
, "images-jpeg-2k"
, "images-jpeg-4k"
หรือ "images-jpeg"
extension
: นามสกุลไฟล์, jpg
สำหรับ JPEG, exr
สำหรับภาพ EXR (HDR)
K
: เมทริกซ์กล้องภายใน 3×3 สำหรับภาพความละเอียดเต็ม ( คอลัมน์หลัก )
T
: เมทริกซ์การแปลงโลกสู่กล้อง 4×4 ( คอลัมน์หลัก )
distortionModel
: โมเดลการบิดเบือนเลนส์ที่ใช้:
"Fisheye"
สำหรับภาพฟิชอาย (Eyeful v1)
"RadialAndTangential"
สำหรับภาพรูเข็ม (Eyeful v2)
distortion
: ค่าสัมประสิทธิ์การบิดเบือนของเลนส์สำหรับใช้กับฟังก์ชัน cv2.undistort
ของ OpenCV
หมายเหตุ: โมเดลการฉายภาพเป็นโมเดลฟิชอายในอุดมคติ (ระยะเท่ากัน)
ภาพฟิชอาย (Eyeful v1): [k1, k2, k3, _, _, _, p1, p2]
ภาพรูเข็ม (Eyeful v2): [k1, k2, p1, p2, k3]
(ลำดับเดียวกันกับ cv2.undistort
)
frameId
: ดัชนีตำแหน่งระหว่างการจับ (จำนวนเต็มติดต่อกัน)
รูปภาพทั้งหมดที่ถ่ายในเวลาเดียวกันจะใช้ frameId
เดียวกัน
sensorId
: ID เซ็นเซอร์ Metashape ( หรือที่เรียกว่า กล้อง) ของภาพนี้
ภาพทั้งหมดที่ถ่ายด้วยกล้องตัวเดียวกันจะใช้ sensorId
เดียวกัน
cameraMasterId
(เป็นทางเลือก): รหัสกล้อง Metashape สำหรับกล้องหลัก (ในการปรับเทียบแท่นขุดเจาะ) ที่ตำแหน่ง/เฟรมนี้
ภาพที่ถ่ายพร้อมกันทั้งหมดจะใช้ cameraMasterId
เดียวกัน
sensorMasterId
(อุปกรณ์เสริม): ID เซ็นเซอร์ Metashape สำหรับกล้องหลักในการสอบเทียบแท่นขุดเจาะ
ควรมีค่าเท่ากันสำหรับกล้องทุกตัว ยกเว้นกล้องหลัก (ปกติจะเป็น "6"
สำหรับ Eyeful v1, "13"
สำหรับ Eyeful v2)
ระบบพิกัดโลก: ถนัดขวา, y-up, y=0
คือระนาบกราวด์ หน่วยเป็นเมตร
cameras.xml
)ข้อมูลการปรับเทียบกล้องส่งออกโดยตรงจาก Metashape โดยใช้รูปแบบไฟล์ที่เป็นกรรมสิทธิ์
mesh.*
)ตาข่ายพื้นผิวในรูปแบบ OBJ ส่งออกจาก Metashape และสร้างจากรูปภาพ JPEG ความละเอียดเต็ม
ระบบพิกัดโลก: ถนัดขวา, y-up, y=0
คือระนาบกราวด์ หน่วยเป็นเมตร
colmap/
)การสร้าง COLMAP ใหม่เหล่านี้จะถูกส่งออกจากการสร้างใหม่ดั้งเดิมของเราโดยใช้ Metashape 2.1.3 พร้อมพารามิเตอร์เริ่มต้น
รูปภาพภายใต้ colmap/images
จะไม่บิดเบี้ยวโดยอัตโนมัติจากรูปภาพใน images-jpeg
ไปจนถึงการฉายภาพรูเข็มโดยมีจุดหลักที่กึ่งกลางภาพ
โปรดทราบว่าการบิดเบือนนี้จะครอบตัดภาพฟิชอายอย่างรุนแรง และมีแนวโน้มที่จะสร้างขนาดภาพที่แตกต่างกันสำหรับกล้องแต่ละรุ่น
รูปภาพใน colmap/images-*
เป็นเวอร์ชันลดขนาดลงของรูปภาพความละเอียดเต็มที่ไม่บิดเบี้ยว คล้ายกับรูปแบบชุดข้อมูล Mip-NeRF 360
splits.json
) ประกอบด้วยรายการรูปภาพสำหรับการฝึก ( "train"
) และการทดสอบ ( "test"
)
ภาพทั้งหมดของกล้องตัวหนึ่งถูกจัดขึ้นเพื่อทดสอบ: กล้อง 5
สำหรับ Eyeful v1 และกล้อง 17
สำหรับ Eyeful v2
3 พ.ย. 2023 – การเปิดตัวชุดข้อมูลเบื้องต้น
18 มกราคม 2024 – เพิ่มความละเอียด “1K” (684×1024 พิกเซล) EXR และ JPEG สำหรับการทดลองขนาดเล็ก
19 เมษายน 2024 – เพิ่มสองห้องจากชุดข้อมูล Real Acoustic Fields (RAF): raf_emptyroom
และ raf_furnishedroom
9 ต.ค. 2024 – เพิ่มการสร้าง COLMAP ใหม่ที่ส่งออกพร้อมรูปภาพที่ไม่บิดเบี้ยวในรูปแบบ Mip-NeRF 360 เช่น เข้ากันได้กับ gsplat
หากคุณใช้ข้อมูลใดๆ จากชุดข้อมูลนี้หรือโค้ดใดๆ ที่เผยแพร่ในพื้นที่เก็บข้อมูลนี้ โปรดอ้างอิงเอกสาร VR-NeRF
@InProceedings{VRNeRF, ผู้แต่ง = {Linning Xu และ Vasu Agrawal และ William Laney และ Tony Garcia และ Aayush Bansal และ Changil Kim และ Rota Bulò, Samuel และ Lorenzo Porzi และ Peter Kontschieder และ Aljaž Božič และ Dahua Lin และ Michael Zollhöfer และ Christian Richardt}, title = {{VR-NeRF}: High-Fidelity Virtualized Walkable Spaces}, booktitle = {SIGGRAPH Asia Conference Proceedings}, ปี = {2023}, doi = {10.1145/3610548.3618139}, url = {https://vr-nerf .github.io}, -
Creative Commons Attribution-NonCommercial (CC BY-NC) 4.0 ตามที่พบในไฟล์ LICENSE
[ข้อกำหนดการใช้งาน] [นโยบายความเป็นส่วนตัว]