مؤخرًا، أصدر فريق التعلم العميق من Google وباحثون من جامعات متعددة نظامًا جديدًا يسمى "MegaSaM"، والذي يمكنه تقدير معلمات الكاميرا وخرائط العمق بكفاءة من مقاطع الفيديو الديناميكية. يمثل هذا طفرة كبيرة في مجال الرؤية الحاسوبية ومن المتوقع أن يحدث ثورة في تكنولوجيا معالجة الفيديو ويجلب تطبيقات واسعة النطاق في العديد من المجالات. الأساليب التقليدية لها العديد من القيود عند التعامل مع المشاهد الديناميكية، وقد أدى ظهور MegaSaM إلى حل هذه المشكلات بشكل فعال وتوفير حل جديد لتحليل الفيديو الديناميكي.
في الآونة الأخيرة، أصدر فريق التعلم العميق من Google وباحثون من جامعات متعددة نظامًا جديدًا يسمى "MegaSaM" يمكنه تقدير معلمات الكاميرا وخرائط العمق بسرعة ودقة من مقاطع الفيديو الديناميكية العادية. وسيجلب ظهور هذه التقنية المزيد من الإمكانيات لمقاطع الفيديو التي نسجلها في حياتنا اليومية، خاصة فيما يتعلق بالتقاط المشاهد الديناميكية وتحليلها.
عادةً ما تتطلب تقنيات البنية التقليدية من الحركة (SfM) والتعريب المتزامن ورسم الخرائط (SLAM) إدخال مقاطع فيديو للمشاهد الثابتة ولها متطلبات اختلاف المنظر العالية. في مواجهة المشاهد الديناميكية، غالبًا ما يكون أداء هذه الأساليب غير مرضٍ لأنه في غياب الخلفية الثابتة، تكون الخوارزمية عرضة للأخطاء. على الرغم من أن بعض الأساليب المعتمدة على الشبكات العصبية حاولت حل هذه المشكلة في السنوات الأخيرة، إلا أن هذه الأساليب غالبًا ما يكون لها عبء حسابي ضخم ونقص في الاستقرار في مقاطع الفيديو الديناميكية، خاصة عندما تكون حركة الكاميرا غير قابلة للتحكم أو مجال الرؤية غير معروف.
وقد أدى ظهور MegaSaM إلى تغيير هذا الوضع. قام فريق البحث بتعديل إطار SLAM للرؤية العميقة بعناية لتمكينه من التكيف مع المشاهد الديناميكية المعقدة، خاصة عندما لا يكون مسار الكاميرا مقيدًا. بعد سلسلة من التجارب، وجد الباحثون أن MegaSaM تفوقت بشكل كبير على التقنيات السابقة ذات الصلة من حيث وضع الكاميرا وتقدير العمق، كما كان أداؤها جيدًا أيضًا من حيث وقت التشغيل، حتى أنه يمكن مقارنته ببعض الأساليب.
وتسمح قوة النظام له بالتعامل مع أي فيديو تقريبًا، بما في ذلك اللقطات غير الرسمية التي قد تكون هناك حركة مكثفة أو ديناميكيات المشهد أثناء التصوير. يُظهر MegaSaM أداءً ممتازًا من خلال معالجة الفيديو المصدر بمعدل 0.7 إطارًا في الثانية تقريبًا. يعرض فريق البحث أيضًا المزيد من نتائج المعالجة في معرضهم لإثبات فعاليتها في تطبيقات العالم الحقيقي.
لا تجلب نتيجة البحث هذه دماء جديدة إلى مجال رؤية الكمبيوتر فحسب، بل توفر أيضًا إمكانيات جديدة لمعالجة الفيديو في الحياة اليومية للمستخدمين. ونحن نتطلع إلى رؤية MegaSaM في المزيد من المشاهد في المستقبل.
مدخل المشروع: https://mega-sam.github.io/#demo
أبرز النقاط:
نظام MegaSaM قادر على تقدير معلمات الكاميرا وخرائط العمق بسرعة ودقة من مقاطع الفيديو الديناميكية العادية.
تتغلب هذه التقنية على أوجه القصور في الأساليب التقليدية في المشاهد الديناميكية وتتكيف مع المعالجة في الوقت الفعلي للبيئات المعقدة.
تظهر النتائج التجريبية أن MegaSaM يتفوق على التقنيات السابقة من حيث الدقة والكفاءة التشغيلية.
لقد أحدث ظهور نظام MegaSaM تغييرات ثورية في معالجة الفيديو الديناميكية، ويوفر أدائه الفعال والدقيق إمكانية المزيد من سيناريوهات التطبيق في المستقبل. من المعتقد أنه مع التطوير والتحسين المستمر للتكنولوجيا، ستلعب MegaSaM دورًا مهمًا في المزيد من المجالات وستوفر المزيد من الراحة لحياة الناس.