أطلق فريق البحث بجامعة واشنطن نموذجًا جديدًا للتتبع البصري SAMURAI، والذي يعتمد على SAM2 ويهدف إلى التغلب على تحديات التتبع البصري في المشاهد المعقدة، وخاصة تتبع الأجسام سريعة الحركة والانغلاق الذاتي. يعمل SAMURAI على تحسين قدرات التنبؤ بحركة الكائن ودقة اختيار القناع بشكل كبير من خلال تقديم إشارات الحركة المؤقتة وآليات اختيار الذاكرة المدركة للحركة، وتحقيق تتبع قوي ودقيق دون إعادة التدريب والأداء الجيد على مجموعات بيانات مرجعية متعددة.
مؤخرًا، أصدر فريق بحث من جامعة واشنطن نموذجًا جديدًا للتتبع البصري يسمى SAMURAI. يعتمد هذا النموذج على نموذج Segment Anything Model2 (SAM2) وهو مصمم لحل التحديات التي تواجه تتبع الكائنات المرئية في المشاهد المعقدة، خاصة عند التعامل مع كائنات سريعة الحركة وذاتية الإغلاق.
يؤدي SAM2 أداءً جيدًا في مهام تجزئة الكائنات، ولكن لديه بعض القيود في التتبع البصري. على سبيل المثال، في المشاهد المزدحمة، يفشل حفظ النافذة الثابتة في مراعاة جودة الذاكرة المحددة، مما قد يتسبب في انتشار الأخطاء خلال تسلسل الفيديو.
من أجل حل هذه المشكلة، اقترح فريق البحث الساموراي، الذي يحسن بشكل كبير القدرة على التنبؤ بحركة الجسم ودقة اختيار القناع من خلال تقديم إشارات الحركة الزمنية وآلية اختيار ذاكرة إدراك الحركة. يمكّن هذا الابتكار SAMURAI من تحقيق تتبع قوي ودقيق دون الحاجة إلى إعادة التدريب أو الضبط الدقيق.
فيما يتعلق بالتشغيل في الوقت الفعلي، أظهر SAMURAI أداءً قويًا بدون إطلاق، مما يعني أن النموذج لا يزال بإمكانه الأداء بشكل جيد دون تدريبه على مجموعة بيانات محددة.
ومن خلال التقييم، وجد فريق البحث أن معدل نجاح SAMURAI ودقته في مجموعات البيانات المعيارية المتعددة قد تحسنا بشكل كبير. في مجموعة بيانات LaSOT-ext، حققت SAMURAI زيادة في المساحة تحت المنحنى بنسبة 7.1%، بينما حققت في مجموعة بيانات GOT-10k زيادة في AO بنسبة 3.5%. بالإضافة إلى ذلك، بالمقارنة مع الأساليب الخاضعة للإشراف الكامل، تعمل SAMURAI بشكل تنافسي متساوٍ على مجموعة بيانات LaSOT، مما يدل على قوتها وإمكانيات تطبيقها الواسعة في سيناريوهات التتبع المعقدة.
وذكر فريق البحث أن نجاح SAMURAI يضع الأساس للتطبيق المستقبلي لتقنية التتبع البصري في بيئات أكثر تعقيدًا وديناميكية. ويأملون أن يؤدي هذا الابتكار إلى تعزيز تطوير مجال التتبع البصري، وتلبية احتياجات التطبيقات في الوقت الفعلي، وتوفير قدرات أقوى للتعرف البصري على مختلف الأجهزة الذكية.
مدخل المشروع: https://yangchris11.github.io/samurai/
تسليط الضوء على:
SAMURAI هو تحسين مبتكر لنموذج SAM2، يهدف إلى تحسين قدرات تتبع الكائنات المرئية في المشاهد المعقدة.
ومن خلال تقديم آلية ذاكرة مدركة للحركة، أصبح SAMURAI قادرًا على التنبؤ بدقة بحركة الكائن وتحسين اختيار القناع، وتجنب انتشار الأخطاء.
في مجموعات البيانات المعيارية المتعددة، يُظهر SAMURAI أداءً قويًا بدون طلقة، مما يحسن بشكل كبير معدل نجاح التتبع ودقته.
يمثل ظهور نموذج SAMURAI تقدمًا كبيرًا في تقنية التتبع البصري، حيث توفر دقته العالية وقوته في المشاهد المعقدة دعمًا قويًا لتحسين قدرات التعرف البصري على الأجهزة الذكية المستقبلية .