เมื่อเร็วๆ นี้ ทีมการเรียนรู้เชิงลึกของ Google และนักวิจัยจากมหาวิทยาลัยหลายแห่งได้เปิดตัวระบบใหม่ที่เรียกว่า "MegaSaM" ซึ่งสามารถประมาณค่าพารามิเตอร์ของกล้องและแผนที่เชิงลึกจากวิดีโอไดนามิกได้อย่างมีประสิทธิภาพ สิ่งนี้ถือเป็นความก้าวหน้าครั้งสำคัญในด้านคอมพิวเตอร์วิทัศน์ และคาดว่าจะปฏิวัติเทคโนโลยีการประมวลผลวิดีโอและนำมาประยุกต์ใช้อย่างแพร่หลายในหลายสาขา วิธีการแบบเดิมๆ มีข้อจำกัดมากมายเมื่อต้องรับมือกับฉากไดนามิก การเกิดขึ้นของ MegaSaM ช่วยแก้ปัญหาเหล่านี้ได้อย่างมีประสิทธิภาพ และมอบโซลูชันใหม่สำหรับการวิเคราะห์วิดีโอแบบไดนามิก
เมื่อเร็วๆ นี้ ทีมการเรียนรู้เชิงลึกของ Google และนักวิจัยจากมหาวิทยาลัยหลายแห่งร่วมกันเปิดตัวระบบใหม่ที่เรียกว่า "MegaSaM" ซึ่งสามารถประมาณค่าพารามิเตอร์ของกล้องและแผนที่เชิงลึกจากวิดีโอไดนามิกธรรมดาได้อย่างรวดเร็วและแม่นยำ การถือกำเนิดของเทคโนโลยีนี้จะช่วยเพิ่มความเป็นไปได้ให้กับวิดีโอที่เราบันทึกในชีวิตประจำวันของเรา โดยเฉพาะอย่างยิ่งในแง่ของการจับภาพและการวิเคราะห์ฉากแบบไดนามิก
โครงสร้างแบบดั้งเดิมจากการเคลื่อนไหว (SfM) และเทคโนโลยี Monocular Simultaneous Localization and Mapping (SLAM) มักจะต้องการอินพุตวิดีโอของฉากคงที่และมีข้อกำหนดพารัลแลกซ์สูง เมื่อเผชิญกับฉากไดนามิก ประสิทธิภาพของวิธีการเหล่านี้มักจะไม่เป็นที่น่าพอใจ เนื่องจากหากไม่มีพื้นหลังแบบคงที่ อัลกอริธึมจึงมีแนวโน้มที่จะเกิดข้อผิดพลาด แม้ว่าวิธีการที่ใช้โครงข่ายประสาทเทียมบางวิธีพยายามแก้ไขปัญหานี้ในช่วงไม่กี่ปีที่ผ่านมา แต่วิธีการเหล่านี้มักมีค่าใช้จ่ายในการคำนวณสูงและขาดความเสถียรในวิดีโอไดนามิก โดยเฉพาะอย่างยิ่งเมื่อการเคลื่อนไหวของกล้องไม่สามารถควบคุมได้หรือไม่ทราบขอบเขตการมองเห็น
การเกิดขึ้นของ MegaSaM ได้เปลี่ยนแปลงสถานการณ์นี้ ทีมวิจัยได้ปรับเปลี่ยนเฟรมเวิร์ก SLAM สำหรับการมองเห็นเชิงลึกอย่างระมัดระวัง เพื่อให้สามารถปรับใช้กับฉากไดนามิกที่ซับซ้อน โดยเฉพาะอย่างยิ่งเมื่อเส้นทางของกล้องไม่ถูกจำกัด หลังจากการทดลองหลายครั้ง นักวิจัยพบว่า MegaSaM มีประสิทธิภาพเหนือกว่าเทคโนโลยีที่เกี่ยวข้องก่อนหน้านี้อย่างมีนัยสำคัญ ในแง่ของการวางท่ากล้องและการประมาณความลึก และยังทำงานได้ดีในแง่ของเวลาทำงาน แม้จะเทียบได้กับบางวิธีก็ตาม
พลังของระบบช่วยให้สามารถจัดการกับวิดีโอได้เกือบทุกประเภท รวมถึงฟุตเทจทั่วไปที่อาจมีการเคลื่อนไหวที่รุนแรงหรือไดนามิกของฉากระหว่างการถ่ายทำ MegaSaM แสดงให้เห็นถึงประสิทธิภาพที่ยอดเยี่ยมโดยการประมวลผลวิดีโอต้นฉบับที่ประมาณ 0.7 เฟรมต่อวินาที ทีมวิจัยยังแสดงผลการประมวลผลเพิ่มเติมในแกลเลอรีของตนเพื่อแสดงให้เห็นถึงประสิทธิภาพในการใช้งานในโลกแห่งความเป็นจริง
ผลการวิจัยนี้ไม่เพียงแต่นำเลือดใหม่มาสู่วงการคอมพิวเตอร์วิทัศน์เท่านั้น แต่ยังมอบความเป็นไปได้ใหม่ๆ สำหรับการประมวลผลวิดีโอในชีวิตประจำวันสำหรับผู้ใช้อีกด้วย เราหวังว่าจะได้เห็น MegaSaM ในฉากอื่นๆ มากขึ้นในอนาคต
ทางเข้าโครงการ: https://mega-sam.github.io/#demo
ไฮไลท์:
ระบบ MegaSaM สามารถประมาณพารามิเตอร์ของกล้องและแผนที่เชิงลึกจากวิดีโอไดนามิกทั่วไปได้อย่างรวดเร็วและแม่นยำ
เทคโนโลยีนี้เอาชนะข้อบกพร่องของวิธีการแบบเดิมในฉากไดนามิก และปรับให้เข้ากับการประมวลผลแบบเรียลไทม์ของสภาพแวดล้อมที่ซับซ้อน
ผลการทดลองแสดงให้เห็นว่า MegaSaM มีประสิทธิภาพเหนือกว่าเทคโนโลยีก่อนหน้านี้ทั้งในด้านความแม่นยำและประสิทธิภาพการดำเนินงาน
การเกิดขึ้นของระบบ MegaSaM ได้นำมาซึ่งการเปลี่ยนแปลงครั้งยิ่งใหญ่ในการประมวลผลวิดีโอแบบไดนามิก และประสิทธิภาพที่มีประสิทธิภาพและแม่นยำของระบบทำให้เกิดความเป็นไปได้สำหรับสถานการณ์การใช้งานอื่นๆ ในอนาคต เชื่อกันว่าด้วยการพัฒนาและปรับปรุงเทคโนโลยีอย่างต่อเนื่อง MegaSaM จะมีบทบาทสำคัญในสาขาต่างๆ มากขึ้นและนำความสะดวกสบายมาสู่ชีวิตของผู้คนมากขึ้น