การติดตามการเคลื่อนไหวสามมิติของวิดีโอช็อตเดียวเป็นปัญหาที่ยากเสมอในด้านการมองเห็นของคอมพิวเตอร์ โดยเฉพาะอย่างยิ่งเมื่อดำเนินการตามความแม่นยำระดับพิกเซลและประมวลผลลำดับวิดีโอขนาดยาว วิธีการแบบดั้งเดิมเผชิญกับความท้าทายมากมายในแง่ของประสิทธิภาพ ความแม่นยำ และความทนทาน และเป็นเรื่องยากที่จะตอบสนองความต้องการของการใช้งานจริง บรรณาธิการของ Downcodes จะแนะนำผลการวิจัยล่าสุดให้คุณทราบ นั่นคือ DELTA ซึ่งได้สร้างความก้าวหน้าครั้งสำคัญในการติดตามการเคลื่อนไหวสามมิติที่มีประสิทธิภาพและแม่นยำ
นอกจากนี้ เทคโนโลยีที่มีอยู่ยังมีข้อกำหนดด้านการคำนวณที่สูง และยากต่อการรักษาประสิทธิภาพเมื่อประมวลผลวิดีโอขนาดยาว ในเวลาเดียวกัน การติดตามในระยะยาวจะได้รับผลกระทบจากปัญหาต่างๆ เช่น การเคลื่อนไหวของกล้องและการบดบังวัตถุ ซึ่งนำไปสู่ข้อผิดพลาดในการติดตามหรือข้อผิดพลาด
ในปัจจุบัน วิธีการประมาณค่าการเคลื่อนไหวของลำดับวิดีโอมีข้อดีและข้อเสียในตัวเอง เทคโนโลยีการไหลของแสงให้การติดตามพิกเซลที่หนาแน่น แต่ขาดความยืดหยุ่นในฉากที่ซับซ้อน โดยเฉพาะอย่างยิ่งเมื่อประมวลผลลำดับที่ยาว
โฟลว์ของฉากเป็นส่วนเสริมของโฟลว์ของแสง ซึ่งประมาณการเคลื่อนไหวสามมิติที่หนาแน่นผ่านข้อมูล RGB-D หรือพอยต์คลาวด์ แต่ก็ยังยากที่จะนำไปใช้อย่างมีประสิทธิภาพในลำดับที่ยาว แม้ว่าวิธีการติดตามจุดสามารถจับวิถีการเคลื่อนไหวและรวมความสนใจเชิงพื้นที่และเชิงเวลาเพื่อให้การติดตามราบรื่นยิ่งขึ้น แต่ก็ยังยากที่จะบรรลุการตรวจสอบที่หนาแน่นเนื่องจากต้นทุนการคำนวณสูง นอกจากนี้ วิธีการติดตามที่ใช้การสร้างใหม่ยังใช้ช่องการเสียรูปเพื่อประมาณการเคลื่อนไหว แต่ไม่สามารถใช้งานได้จริงในการใช้งานแบบเรียลไทม์
เมื่อเร็วๆ นี้ ทีมวิจัยจากมหาวิทยาลัยแมสซาชูเซตส์ แอมเฮิร์สต์, MIT-IBM Watson Artificial Intelligence Laboratory และ Snap Inc. เสนอ DELTA (Dense Efficient Long-range3D Tracking for Any video) ซึ่งเป็นวิธีการที่ออกแบบมาเพื่อการติดตามที่มีประสิทธิภาพ แต่ละพิกเซลในพื้นที่สามมิติ DELTA เริ่มต้นด้วยการติดตามที่มีความละเอียดต่ำ ใช้กลไกความสนใจแบบ spatiotemporal และใช้ตัวอัปแซมเปลอร์ตามความสนใจเพื่อให้ได้ความแม่นยำที่มีความละเอียดสูง นวัตกรรมที่สำคัญ ได้แก่ ตัวเพิ่มตัวอย่างสำหรับขอบเขตการเคลื่อนไหวที่ชัดเจน สถาปัตยกรรมความสนใจเชิงพื้นที่ที่มีประสิทธิภาพ และการแสดงความลึกแบบลอการิทึมเพื่อประสิทธิภาพการติดตามที่เพิ่มขึ้น
DELTA บรรลุผลลัพธ์ขั้นสูงในชุดข้อมูล CVO และ Kubric3D โดยได้รับการปรับปรุงมากกว่า 10% สำหรับตัวบ่งชี้ เช่น Jaccard เฉลี่ย (AJ) และผลต่างตำแหน่งเฉลี่ยสามมิติ (APD3D) และยังดำเนินการกับการวัดประสิทธิภาพการติดตามจุด 3D เช่น TAP-Vid3D และ LSFOdyssey โดดเด่น ต่างจากวิธีการที่มีอยู่ DELTA บรรลุการติดตาม 3 มิติที่มีความหนาแน่นสูงในขนาดและทำงานเร็วกว่าวิธีการก่อนหน้ามากกว่า 8 เท่า ในขณะที่ยังคงรักษาความแม่นยำระดับชั้นนำของอุตสาหกรรม
การทดลองแสดงให้เห็นว่า DELTA ทำงานได้ดีในงานติดตามสามมิติ โดยมีทั้งความเร็วและความแม่นยำเกินกว่าวิธีการก่อนหน้านี้ DELTA ได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูล Kubric ซึ่งมีวิดีโอมากกว่า 5,600 รายการ และฟังก์ชันการสูญเสียจะรวมการสูญเสียพิกัด 2 มิติ ความลึก และการมองเห็นเข้าด้วยกัน
ในการทดสอบเกณฑ์มาตรฐาน DELTA ได้รับคะแนนสูงสุดใน CVO และ Kubric3D ในการติดตาม 2D ระยะไกลและการติดตาม 3D ที่หนาแน่นตามลำดับ ทำให้งานเสร็จเร็วกว่าวิธีอื่นมาก ตัวเลือกการออกแบบของ DELTA เช่น การแสดงเชิงลึกแบบลอการิทึม ความสนใจเชิงพื้นที่ และตัวเพิ่มตัวอย่างตามความสนใจ ปรับปรุงความแม่นยำและประสิทธิภาพอย่างมีนัยสำคัญภายใต้สถานการณ์การติดตามต่างๆ
DELTA เป็นวิธีที่มีประสิทธิภาพที่สามารถติดตามทุกพิกเซลในเฟรมวิดีโอ ทำให้ได้รับความแม่นยำและรันไทม์ที่เร็วขึ้นในการติดตาม 3D และ 3D ที่หนาแน่น วิธีนี้อาจเผชิญกับความท้าทายในจุดที่ถูกบังไว้ในระยะยาว และประสิทธิภาพที่ดีที่สุดจะเกิดขึ้นในวิดีโอสั้นที่มีเฟรมไม่เกินสองสามร้อยเฟรม ความแม่นยำในการติดตามแบบ 3 มิติของ DELTA ขึ้นอยู่กับความแม่นยำและความเสถียรทางเวลาของการประมาณความลึกตาข้างเดียวที่ใช้ คาดว่าความก้าวหน้าของการวิจัยในการประมาณความลึกแบบตาข้างเดียวจะช่วยปรับปรุงประสิทธิภาพของวิธีนี้ต่อไป
ทางเข้าโครงการ: https://snap-research.github.io/DELTA/
โดยรวมแล้ว DELTA มีความก้าวหน้าอย่างก้าวกระโดดในการติดตามการเคลื่อนไหวสามมิติที่มีประสิทธิภาพ และมีความแม่นยำ ประสิทธิภาพ และความสามารถในการปรับขนาดสูง ทำให้มีศักยภาพในการใช้งานอย่างมากในด้านการประมวลผลวิดีโอ ในอนาคต ด้วยการพัฒนาอย่างต่อเนื่องของเทคโนโลยีการประมาณความลึกด้วยตาข้างเดียว ประสิทธิภาพของ DELTA คาดว่าจะได้รับการปรับปรุงเพิ่มเติมต่อไป