أفاد محرر Downcodes: أصدر فريق البحث بجامعة واشنطن نموذجًا جديدًا للتتبع البصري يسمى SAMURAI، والذي يعتمد على SAM2 ويهدف إلى التغلب على تحديات التتبع البصري في المشاهد المعقدة، خاصة في التعامل مع الأجسام سريعة الحركة والانغلاق الذاتي. يعمل SAMURAI على تحسين قدرات التنبؤ بحركة الكائن ودقة اختيار القناع بشكل كبير من خلال تقديم إشارات الحركة المؤقتة وآليات اختيار ذاكرة إدراك الحركة، مما يحقق تتبعًا قويًا ودقيقًا دون إعادة التدريب أو الضبط الدقيق. يتيح أداءها القوي بدون إطلاق النار لها الأداء الجيد دون التدريب على مجموعة بيانات محددة.
يؤدي SAM2 أداءً جيدًا في مهام تجزئة الكائنات، ولكن لديه بعض القيود في التتبع البصري. على سبيل المثال، في المشاهد المزدحمة، يفشل حفظ النافذة الثابتة في مراعاة جودة الذاكرة المحددة، مما قد يتسبب في انتشار الأخطاء خلال تسلسل الفيديو.
من أجل حل هذه المشكلة، اقترح فريق البحث الساموراي، الذي يحسن بشكل كبير القدرة على التنبؤ بحركة الجسم ودقة اختيار القناع من خلال تقديم إشارات الحركة الزمنية وآلية اختيار ذاكرة إدراك الحركة. يمكّن هذا الابتكار SAMURAI من تحقيق تتبع قوي ودقيق دون الحاجة إلى إعادة التدريب أو الضبط الدقيق.
فيما يتعلق بالتشغيل في الوقت الفعلي، أظهر SAMURAI أداءً قويًا بدون إطلاق، مما يعني أن النموذج لا يزال بإمكانه الأداء بشكل جيد دون تدريبه على مجموعة بيانات محددة.
ومن خلال التقييم، وجد فريق البحث أن معدل نجاح SAMURAI ودقته في مجموعات البيانات المعيارية المتعددة قد تحسنا بشكل كبير. في مجموعة بيانات LaSOT-ext، حققت SAMURAI زيادة في المساحة تحت المنحنى بنسبة 7.1%، بينما حققت في مجموعة بيانات GOT-10k زيادة في AO بنسبة 3.5%. بالإضافة إلى ذلك، بالمقارنة مع الأساليب الخاضعة للإشراف الكامل، يعمل SAMURAI بشكل تنافسي متساوٍ على مجموعة بيانات LaSOT، مما يدل على قوتها وإمكانيات تطبيقها الواسعة في سيناريوهات التتبع المعقدة.
وذكر فريق البحث أن نجاح SAMURAI يضع الأساس للتطبيق المستقبلي لتقنية التتبع البصري في بيئات أكثر تعقيدًا وديناميكية. ويأملون أن يؤدي هذا الابتكار إلى تعزيز تطوير مجال التتبع البصري، وتلبية احتياجات التطبيقات في الوقت الفعلي، وتوفير قدرات أقوى للتعرف البصري على مختلف الأجهزة الذكية.
مدخل المشروع: https://yangchris11.github.io/samurai/
لقد أحدث ظهور نموذج SAMURAI اختراقات جديدة في تقنية التتبع البصري، كما أن كفاءته ودقته في المشاهد المعقدة مثيرة للإعجاب. وفي المستقبل، من المتوقع أن يتم استخدام هذا النموذج على نطاق واسع في مجالات مثل القيادة الذاتية ورؤية الروبوت، مما يعزز مواصلة تطوير تكنولوجيا الذكاء الاصطناعي. يتطلع محرر Downcodes إلى رؤية SAMURAI يحقق نتائج أكثر إثارة للإعجاب في المستقبل!