รายงานของบรรณาธิการ Downcodes: ทีมวิจัยจากมหาวิทยาลัยเทคนิคแห่งปรากในสาธารณรัฐเช็กและสถาบันเทคโนโลยีแห่งสหพันธรัฐสวิสในซูริกได้สร้างความก้าวหน้าครั้งสำคัญเมื่อเร็ว ๆ นี้ พวกเขาได้พัฒนาวิธีการที่เป็นนวัตกรรมใหม่ที่เรียกว่า WildGaussians ซึ่งปรับปรุงประสิทธิภาพของ 3D Gaussian sputtering ( 3DGS) ในการประมวลผลโครงสร้างที่ไม่มีโครงสร้าง ความสามารถในชุดภาพ ความก้าวหน้าทางเทคโนโลยีนี้ทำให้สามารถสร้าง 3D คุณภาพสูงขึ้นใหม่ได้โดยใช้ชุดรูปภาพที่ไม่มีโครงสร้าง เช่น ภาพถ่ายสถานที่สำคัญที่รวบรวมบนอินเทอร์เน็ต นำความเป็นไปได้ใหม่ๆ มาสู่สาขาต่างๆ เช่น ความเป็นจริงเสมือน ความเป็นจริงเสริม และการมองเห็นของคอมพิวเตอร์ WildGaussians แก้ปัญหาต่างๆ เช่น การเปลี่ยนแปลงรูปลักษณ์และความสว่าง และการบดบังวัตถุที่กำลังเคลื่อนที่เป็นหลัก โดยอาศัยองค์ประกอบหลัก 2 ประการ ได้แก่ การสร้างแบบจำลองรูปลักษณ์และการสร้างแบบจำลองความไม่แน่นอน และดำเนินการกับชุดข้อมูลที่ท้าทาย เช่น ชุดข้อมูล NeRF On-the-go และการท่องเที่ยวด้วยภาพถ่าย ยอดเยี่ยมมาก ความเร็วในการเรนเดอร์เวลายังสูงถึง 117 ภาพต่อวินาทีอีกด้วย
ทีมวิจัยจากมหาวิทยาลัยเทคนิคปรากในสาธารณรัฐเช็กและ ETH ซูริกในสวิตเซอร์แลนด์เพิ่งเปิดตัววิธีการใหม่ที่เรียกว่า WildGaussians ซึ่งปรับปรุงขีดความสามารถของเทคโนโลยี 3D Gaussian sputtering (3DGS) อย่างมีนัยสำคัญเมื่อประมวลผลชุดภาพที่ไม่มีโครงสร้าง ความก้าวหน้าครั้งนี้ทำให้สามารถบรรลุการสร้าง 3D คุณภาพสูงขึ้นมาใหม่จากชุดภาพที่ไม่มีโครงสร้าง เช่น ภาพถ่ายสถานที่สำคัญที่รวบรวมจากอินเทอร์เน็ต
WildGaussians แก้ปัญหาความท้าทายหลักสองประการเป็นหลัก ได้แก่ การเปลี่ยนแปลงรูปลักษณ์และแสง และปัญหาการบดบังของวัตถุที่กำลังเคลื่อนที่ ทีมวิจัยได้จัดการกับความท้าทายเหล่านี้โดยการพัฒนาองค์ประกอบหลัก 2 ประการ ได้แก่ การสร้างแบบจำลองรูปลักษณ์และการสร้างแบบจำลองความไม่แน่นอน
การสร้างโมเดลรูปลักษณ์ช่วยให้ระบบประมวลผลภาพที่ถ่ายภายใต้สภาวะที่แตกต่างกัน เช่น เวลาหรือสภาพอากาศที่แตกต่างกัน วิธีการนี้ใช้การฝังแบบฝึกได้สำหรับแต่ละภาพการฝึกและการแจกแจงแบบเกาส์เซียน และปรับสีของการกระจายแบบเกาส์เซียนให้สอดคล้องกับเงื่อนไขการถ่ายภาพที่สอดคล้องกันผ่านโครงข่ายประสาทเทียม (MLP)
การสร้างแบบจำลองความไม่แน่นอนช่วยระบุและเพิกเฉยต่อสิ่งกีดขวาง เช่น คนเดินถนนหรือรถยนต์ในระหว่างการฝึกซ้อม นักวิจัยใช้คุณลักษณะ DINOv2 ที่ได้รับการฝึกอบรมมาล่วงหน้าเพื่อปรับปรุงความสามารถในการปรับตัวของระบบให้เข้ากับการเปลี่ยนแปลงภูมิทัศน์
ในแง่ของประสิทธิภาพ WildGaussians มีประสิทธิภาพเหนือกว่าวิธีการล้ำสมัยที่มีอยู่กับชุดข้อมูลที่ท้าทาย เช่น ชุดข้อมูล NeRF On-the-go และ Photo Tourism ในเวลาเดียวกัน วิธีการนี้ทำให้ได้ความเร็วในการเรนเดอร์แบบเรียลไทม์ที่ 117 ภาพต่อวินาทีบน GPU Nvidia RTX4090
แม้ว่า WildGaussians จะมีความก้าวหน้าอย่างมากในด้านการสร้างใหม่ 3 มิติ แต่นักวิจัยยอมรับว่าวิธีการนี้ยังมีข้อจำกัดบางประการ เช่น การแสดงไฮไลท์แบบพิเศษบนวัตถุ พวกเขาวางแผนที่จะปรับปรุงแนวทางนี้ต่อไปในอนาคตด้วยการผสมผสานเทคนิคต่างๆ เช่น การสร้างแบบจำลองการแพร่กระจาย
งานวิจัยนี้เปิดโอกาสใหม่ๆ สำหรับการสร้าง 3 มิติที่ทนทาน อเนกประสงค์ และเหมือนจริงจากข้อมูลที่ผู้ใช้สร้างขึ้นใหม่ ซึ่งคาดว่าจะมีผลกระทบอย่างมากในหลายสาขา เช่น ความเป็นจริงเสมือน ความเป็นจริงเสริม และการมองเห็นของคอมพิวเตอร์
การเกิดขึ้นของ WildGaussians ถือเป็นก้าวกระโดดที่สำคัญในเทคโนโลยีการสร้างใหม่ 3 มิติ และประสิทธิภาพและความแม่นยำสูงของ WildGaussians ถือเป็นรากฐานที่มั่นคงสำหรับการใช้งานในอนาคตมากมาย บรรณาธิการของ Downcodes หวังว่าเทคโนโลยีนี้จะได้รับการปรับปรุงให้ดียิ่งขึ้นในอนาคต เพื่อให้เราได้รับประสบการณ์ดิจิทัลที่สมจริงและดื่มด่ำยิ่งขึ้น