يعمل نموذج SAM الخاص بـ Meta بشكل جيد في مجال تجزئة الصور، ولكنه يواجه تحديات في تتبع كائنات الفيديو. خاصة في المشاهد المعقدة، تؤدي آلية ذاكرة "النافذة الثابتة" إلى انتشار الأخطاء ونتائج التتبع الضعيفة. ولتحقيق هذه الغاية، قام الباحثون في جامعة واشنطن بتطوير نموذج SAMURAI وتحسين SAM2، مما أدى إلى تحسين دقة واستقرار تتبع كائن الفيديو بشكل كبير.
نموذج "تقسيم كل شيء" الذي أطلقته شركة Meta لا يقهر في مجال تجزئة الصور، ولكن عندما يتعلق الأمر بتتبع كائنات الفيديو، فهو غير قادر قليلاً على فعل ما يريد، خاصة في المشاهد التي تحتوي على حشود من الأشخاص، والأهداف سريعة الحركة ، أو لعب "الغميضة" يشعر بالارتباك. وذلك لأن آلية الذاكرة لنموذج SAM تشبه "نافذة ثابتة"، تسجل فقط أحدث الصور وتتجاهل جودة محتوى الذاكرة، مما يؤدي إلى انتشار الخطأ في الفيديو وتقليل تأثير التتبع بشكل كبير.
ومن أجل حل هذه المشكلة، "فكر باحثون من جامعة واشنطن مليًا" وطوروا أخيرًا نموذجًا يسمى SAMURAI، وهو SAM2 "المعدل بالشيطان"، والذي يستخدم خصيصًا لتحقيق تتبع كائن الفيديو. اسم SAMURAI متسلط للغاية، وله فرشتان: فهو يجمع بين أدلة الحركة الزمنية وآلية اختيار ذاكرة إدراك الحركة المقترحة حديثًا، مثل المحارب ذي المهارات العالية، يمكنه التنبؤ بدقة بمسار حركة الأشياء وتحسين اختيار القناع في النهاية تتبع دقيق دون الحاجة إلى إعادة التدريب أو الضبط الدقيق.
يكمن سر الساموراي في ابتكارين رئيسيين:
النصيحة الأولى: نظام نمذجة الحركة. يشبه هذا النظام "عين النسر" للساموراي، فهو قادر على التنبؤ بدقة أكبر بموقع الأشياء في المشاهد المعقدة، وبالتالي تحسين اختيار الأقنعة بحيث لا يتم الخلط بين الساموراي والأشياء المماثلة.
الخطوة الثانية: آلية اختيار ذاكرة إدراك الحركة. يتخلى SAMURAI عن آلية ذاكرة "النافذة الثابتة" البسيطة الخاصة بـ SAM2 ويعتمد بدلاً من ذلك نظام تسجيل مختلط يجمع بين تشابه القناع الخام ونتائج الأشياء والحركة، تمامًا مثل الساموراي الذي يختار الأسلحة بعناية، ويحتفظ فقط بالمعلومات التاريخية الأكثر صلة، وبالتالي تحسين موثوقية التتبع الشاملة النموذج وتجنب انتشار الخطأ.
لا يتمتع الساموراي بمهارة عالية في الفنون القتالية فحسب، بل يتمتع أيضًا بالرشاقة والقدرة على العمل في الوقت الفعلي. والأهم من ذلك، أنها أظهرت أداءً قويًا للعينة الصفرية في مجموعات البيانات المعيارية المختلفة، مما يعني أنها يمكن أن تتكيف مع سيناريوهات مختلفة دون تدريب خاص وتُظهر قدرات تعميمية قوية.
في الاختبارات الميدانية، حقق SAMURAI تحسينات كبيرة على أجهزة التتبع الحالية من حيث معدل النجاح والدقة. على سبيل المثال، في مجموعة بيانات LaSOText، تحصل على ربح AUC بنسبة 7.1%؛ وفي مجموعة بيانات GOT-10k، تحصل على ربح AO بنسبة 3.5%. والأمر الأكثر إثارة للدهشة هو أنه يحقق نتائج مماثلة للطرق الخاضعة للإشراف الكامل على مجموعة بيانات LaSOT، والتي تثبت قوتها تمامًا في سيناريوهات التتبع المعقدة وإمكاناتها الكبيرة للتطبيق العملي في البيئات الديناميكية.
يعود نجاح SAMURAI إلى استخدامه الذكي لمعلومات الحركة. قام الباحثون بدمج مرشح كالمان التقليدي مع SAM2 لمساعدة النموذج على اختيار القناع الأكثر موثوقية من أقنعة مرشحة متعددة من خلال التنبؤ بموقع وحجم الأشياء. بالإضافة إلى ذلك، قاموا أيضًا بتصميم آلية اختيار الذاكرة بناءً على ثلاث درجات (درجة تشابه القناع، ودرجة مظهر الكائن، ودرجة الحركة) فقط عندما تصل هذه الدرجات الثلاثة إلى الحد الأدنى، سيتم تحديد إطار الذاكرة. تتجنب آلية الذاكرة الانتقائية هذه بشكل فعال التداخل من المعلومات غير ذات الصلة وتحسن دقة التتبع.
يجلب ظهور SAMURAI أملاً جديدًا في مجال تتبع كائنات الفيديو. فهو لا يتفوق على أجهزة التتبع الموجودة في الأداء فحسب، بل إنه لا يتطلب أيضًا إعادة التدريب أو الضبط الدقيق ويمكن تطبيقه بسهولة على سيناريوهات مختلفة. أعتقد أنه في المستقبل، ستلعب الساموراي دورًا مهمًا في مجالات مثل القيادة الذاتية، والروبوتات، والمراقبة بالفيديو، مما يوفر لنا تجربة حياة أكثر ذكاءً.
عنوان المشروع: https://yangchris11.github.io/samurai/
عنوان الورقة: https://arxiv.org/pdf/2411.11922
وخلص محرر Downcodes إلى أن ظهور نموذج SAMURAI قد حقق تقدمًا كبيرًا في تقنية تتبع هدف الفيديو، حيث تعمل آلية الذاكرة المبتكرة ونظام نمذجة الحركة على حل أوجه القصور في الأساليب التقليدية بشكل فعال، كما أن آفاق تطبيقه المستقبلية واسعة.