يعمل نموذج SAM الخاص بـ Meta بشكل جيد في مجال تجزئة الصور، ولكنه يعاني من عيوب في تتبع كائنات الفيديو، خاصة في المشاهد المعقدة ذات نتائج التتبع الضعيفة. قام الباحثون في جامعة واشنطن بتطوير نموذج SAMURAI وتحسين SAM2، مما أدى إلى تحسين أداء تتبع كائنات الفيديو بشكل كبير. يجمع الساموراي بذكاء بين إشارات الحركة الزمنية وآليات اختيار ذاكرة إدراك الحركة، مثل المحارب ذي المهارات العالية، يستطيع الساموراي التنبؤ بدقة بمسار حركة الأشياء واختيار القناع الأكثر موثوقية.
نموذج "تقسيم كل شيء" الذي أطلقته شركة Meta لا يقهر في مجال تجزئة الصور، ولكن عندما يتعلق الأمر بتتبع كائنات الفيديو، فهو غير قادر قليلاً على فعل ما يريد، خاصة في المشاهد التي تحتوي على حشود من الأشخاص، والأهداف سريعة الحركة ، أو لعب "الغميضة" يشعر بالارتباك. وذلك لأن آلية الذاكرة لنموذج SAM تشبه "نافذة ثابتة"، تسجل فقط أحدث الصور وتتجاهل جودة محتوى الذاكرة، مما يؤدي إلى انتشار الخطأ في الفيديو وتقليل تأثير التتبع بشكل كبير.
ومن أجل حل هذه المشكلة، "فكر باحثون من جامعة واشنطن مليًا" وطوروا أخيرًا نموذجًا يسمى SAMURAI، وهو SAM2 "المعدل بالشيطان"، والذي يستخدم خصيصًا لتحقيق تتبع كائن الفيديو. اسم SAMURAI متسلط للغاية، وله فرشتان: فهو يجمع بين أدلة الحركة الزمنية وآلية اختيار ذاكرة إدراك الحركة المقترحة حديثًا، مثل المحارب ذي المهارات العالية، يمكنه التنبؤ بدقة بمسار حركة الأشياء وتحسين اختيار القناع في النهاية تتبع دقيق دون الحاجة إلى إعادة التدريب أو الضبط الدقيق.
يكمن سر الساموراي في ابتكارين رئيسيين:
النصيحة الأولى: نظام نمذجة الحركة. يشبه هذا النظام "عين النسر" للساموراي، فهو قادر على التنبؤ بدقة أكبر بموقع الأشياء في المشاهد المعقدة، وبالتالي تحسين اختيار الأقنعة بحيث لا يتم الخلط بين الساموراي والأشياء المماثلة.
الخطوة الثانية: آلية اختيار ذاكرة إدراك الحركة. يتخلى SAMURAI عن آلية ذاكرة "النافذة الثابتة" البسيطة الخاصة بـ SAM2 ويعتمد بدلاً من ذلك نظام تسجيل مختلط يجمع بين تشابه القناع الخام ونتائج الأشياء والحركة، تمامًا مثل الساموراي الذي يختار الأسلحة بعناية، ويحتفظ فقط بالمعلومات التاريخية الأكثر صلة، وبالتالي تحسين موثوقية التتبع الشاملة النموذج وتجنب انتشار الخطأ.
لا يتمتع الساموراي بمهارة عالية في الفنون القتالية فحسب، بل يتمتع أيضًا بالرشاقة والقدرة على العمل في الوقت الفعلي. والأهم من ذلك، أنها أظهرت أداءً قويًا للعينة الصفرية في مجموعات البيانات المعيارية المختلفة، مما يعني أنها قادرة على التكيف مع سيناريوهات مختلفة دون تدريب خاص وتُظهر قدرات تعميمية قوية.
في الاختبارات الميدانية، حقق SAMURAI تحسينات كبيرة على أجهزة التتبع الحالية من حيث معدل النجاح والدقة. على سبيل المثال، في مجموعة بيانات LaSOText، تحصل على ربح AUC بنسبة 7.1%؛ وفي مجموعة بيانات GOT-10k، تحصل على ربح AO بنسبة 3.5%. والأمر الأكثر إثارة للدهشة هو أنه يحقق نتائج مماثلة للطرق الخاضعة للإشراف الكامل على مجموعة بيانات LaSOT، والتي تثبت قوتها تمامًا في سيناريوهات التتبع المعقدة وإمكاناتها الكبيرة للتطبيق العملي في البيئات الديناميكية.
يعود نجاح SAMURAI إلى استخدامه الذكي لمعلومات الحركة. قام الباحثون بدمج مرشح كالمان التقليدي مع SAM2 لمساعدة النموذج على اختيار القناع الأكثر موثوقية من أقنعة مرشحة متعددة من خلال التنبؤ بموقع وحجم الأشياء. بالإضافة إلى ذلك، قاموا أيضًا بتصميم آلية اختيار الذاكرة بناءً على ثلاث درجات (درجة تشابه القناع، ودرجة مظهر الكائن، ودرجة الحركة) فقط عندما تصل هذه الدرجات الثلاثة إلى الحد الأدنى، سيتم تحديد إطار الذاكرة. تتجنب آلية الذاكرة الانتقائية هذه بشكل فعال التداخل من المعلومات غير ذات الصلة وتحسن دقة التتبع.
يجلب ظهور SAMURAI أملاً جديدًا في مجال تتبع كائنات الفيديو. فهو لا يتفوق على أدوات التتبع الموجودة في الأداء فحسب، بل إنه لا يتطلب أيضًا إعادة التدريب أو الضبط الدقيق ويمكن تطبيقه بسهولة على سيناريوهات مختلفة. أعتقد أنه في المستقبل، ستلعب الساموراي دورًا مهمًا في مجالات مثل القيادة الذاتية، والروبوتات، والمراقبة بالفيديو، مما يوفر لنا تجربة حياة أكثر ذكاءً.
عنوان المشروع: https://yangchris11.github.io/samurai/
عنوان الورقة: https://arxiv.org/pdf/2411.11922
بشكل عام، حقق نموذج SAMURAI تقدمًا كبيرًا في مجال تتبع كائنات الفيديو، ويوفر أدائه الفعال والدقيق والقوي دعمًا فنيًا قويًا للتطبيقات الذكية المستقبلية. إن آلية الذاكرة المبتكرة ونظام نمذجة الحركة الخاص بها يستحقان الدراسة والمراجع المتعمقة.