لقد كان تتبع الحركة ثلاثية الأبعاد لمقاطع الفيديو ذات اللقطة الواحدة دائمًا مشكلة صعبة في مجال رؤية الكمبيوتر، خاصة عند متابعة الدقة على مستوى البكسل ومعالجة تسلسلات الفيديو الطويلة. تواجه الطرق التقليدية العديد من التحديات من حيث الكفاءة والدقة والمتانة، كما يصعب تلبية احتياجات التطبيقات العملية. سيقدم لك محرر Downcodes أحدث نتائج البحث -DELTA، والتي حققت تقدمًا كبيرًا في تتبع الحركة ثلاثي الأبعاد بكفاءة ودقة.
علاوة على ذلك، فإن التكنولوجيا الحالية لها متطلبات حسابية عالية ومن الصعب الحفاظ على الكفاءة عند معالجة مقاطع الفيديو الطويلة. وفي الوقت نفسه، سيتأثر التتبع طويل المدى أيضًا بمشاكل مثل حركة الكاميرا وانسداد الكائن، مما يؤدي إلى حدوث أخطاء أو أخطاء في التتبع.
في الوقت الحالي، تتمتع طرق تقدير حركة تسلسل الفيديو بمزاياها وعيوبها. توفر تقنية التدفق البصري تتبعًا كثيفًا لوحدات البكسل، ولكنها تفتقر إلى المرونة في المشاهد المعقدة، خاصة عند معالجة التسلسلات الطويلة.
يعد تدفق المشهد امتدادًا للتدفق البصري، الذي يقدر الحركة الكثيفة ثلاثية الأبعاد من خلال بيانات RGB-D أو السحب النقطية، ولكن لا يزال من الصعب تطبيقه بكفاءة في تسلسلات طويلة. على الرغم من أن طرق تتبع النقاط يمكنها التقاط مسارات الحركة والجمع بين الاهتمام المكاني والزمني لتحقيق تتبع أكثر سلاسة، إلا أنه لا يزال من الصعب تحقيق مراقبة كثيفة بسبب التكاليف الحسابية العالية. علاوة على ذلك، تستخدم أساليب التتبع القائمة على إعادة البناء مجالات التشوه لتقدير الحركة، ولكنها ليست عملية في التطبيقات في الوقت الفعلي.
في الآونة الأخيرة، اقترح فريق بحث من جامعة ماساتشوستس أمهرست ومختبر MIT-IBM Watson للذكاء الاصطناعي وشركة Snap Inc. DELTA (التتبع ثلاثي الأبعاد عالي الكفاءة الكثيف لأي فيديو)، وهي طريقة مصممة للتتبع الفعال كل بكسل في مساحة ثلاثية الأبعاد. تبدأ DELTA بالتتبع منخفض الدقة، وتستخدم آلية الاهتمام الزماني المكاني، وتطبق أداة رفع العينات القائمة على الاهتمام لتحقيق دقة عالية الدقة. تشتمل ابتكاراتها الرئيسية على جهاز upsampler لحدود الحركة الواضحة، وبنية الاهتمام المكاني الفعالة، وتمثيل العمق اللوغاريتمي لتحسين أداء التتبع.
حققت DELTA نتائج متقدمة في مجموعات بيانات CVO وKubric3D، حيث تحسنت بأكثر من 10% في مؤشرات مثل متوسط Jaccard (AJ) ومتوسط فرق الموضع ثلاثي الأبعاد (APD3D)، كما تم تنفيذها أيضًا على معايير تتبع النقاط ثلاثية الأبعاد مثل TAP-Vid3D وLSFOdyssey المتميز. على عكس الطرق الحالية، تحقق DELTA تتبعًا كثيفًا ثلاثي الأبعاد على نطاق واسع وتعمل أسرع بأكثر من 8 مرات من الطرق السابقة مع الحفاظ على الدقة الرائدة في الصناعة.
تظهر التجارب أن DELTA يؤدي أداءً جيدًا في مهام التتبع ثلاثية الأبعاد، حيث تتجاوز السرعة والدقة الطرق السابقة. تم تدريب DELTA على مجموعة بيانات Kubric، التي تحتوي على أكثر من 5600 مقطع فيديو، وتجمع وظيفة الخسارة الخاصة بها بين الإحداثيات ثنائية الأبعاد وفقدان العمق والرؤية.
في الاختبار المعياري، حققت DELTA أعلى الدرجات في CVO وKubric3D في التتبع ثنائي الأبعاد لمسافات طويلة والتتبع الكثيف ثلاثي الأبعاد على التوالي، مما أدى إلى إكمال المهمة بشكل أسرع بكثير من الطرق الأخرى. تعمل خيارات تصميم DELTA، مثل تمثيل العمق اللوغاريتمي، والاهتمام المكاني، وأجهزة أخذ العينات المستندة إلى الاهتمام، على تحسين دقتها وكفاءتها بشكل كبير في ظل سيناريوهات التتبع المختلفة.
DELTA هي طريقة فعالة قادرة على تتبع كل بكسل في إطار الفيديو، وتحقيق الدقة وأوقات تشغيل أسرع في تتبع كثيف ثلاثي الأبعاد وثلاثي الأبعاد. قد تواجه هذه الطريقة تحديات على النقاط المسدودة على المدى الطويل، وأفضل أداء يحدث في مقاطع الفيديو القصيرة التي لا تزيد عن بضع مئات من الإطارات. تعتمد دقة التتبع ثلاثي الأبعاد لـ DELTA على الدقة والثبات الزمني لتقدير العمق الأحادي المستخدم. ومن المتوقع أن يؤدي التقدم البحثي في تقدير العمق الأحادي إلى تحسين أداء هذه الطريقة.
مدخل المشروع: https://snap-research.github.io/DELTA/
بشكل عام، حققت DELTA تقدمًا كبيرًا في تتبع الحركة ثلاثي الأبعاد بكفاءة، كما أن دقتها العالية وكفاءتها وقابليتها للتوسع تجعلها تتمتع بإمكانيات تطبيقية ضخمة في مجال معالجة الفيديو. في المستقبل، مع التطوير المستمر لتقنية تقدير العمق الأحادي، من المتوقع أن يتم تحسين أداء DELTA بشكل أكبر.