أصدرت ByteDance مؤخرًا جيلًا جديدًا من نماذج العمق، Depth Anything V2، والذي حقق تقدمًا كبيرًا في مجال تقدير العمق أحادي العين. بالمقارنة مع الجيل السابق، تم تحسين إصدار V2 بشكل كبير من حيث دقة التفاصيل والمتانة والكفاءة، كما أن سرعته أسرع بأكثر من عشر مرات من النموذج المعتمد على Stable Diffusion. لا ينعكس تقدم هذه التكنولوجيا فقط في تحسين النموذج نفسه، ولكن أيضًا في أساليب التدريب المبتكرة التي توفر إمكانيات جديدة في مجال رؤية الكمبيوتر. توضح المقالة الميزات الرئيسية وطرق التدريب ومجموعة واسعة من سيناريوهات تطبيق Depth Anything V2، مما يسمح لنا بالحصول على فهم متعمق لتقدم هذه التكنولوجيا.
أخبار من موقع ChinaZ.com يوم 14 يونيو: أصدرت ByteDance جيلًا جديدًا من نموذج العمق Depth Anything V2، والذي حقق تحسينات كبيرة في الأداء في مجال تقدير العمق أحادي العين. بالمقارنة مع الجيل السابق Depth Anything V1، يتميز الإصدار V2 بتفاصيل أدق وقوة أقوى، مع تحسين الكفاءة بشكل كبير، أسرع بأكثر من 10 مرات من النموذج القائم على Stable Diffusion.
الميزات الرئيسية:
تفاصيل أكثر دقة: تم تحسين نموذج V2 بالتفصيل، مما يوفر تنبؤات أكثر دقة للعمق.
كفاءة ودقة عالية: بالمقارنة مع النماذج المبنية على SD، قام V2 بتحسين الكفاءة والدقة بشكل كبير.
دعم النماذج متعددة المقاييس: يوفر نماذج بمقاييس مختلفة بمعلمات تتراوح من 25M إلى 1.3B للتكيف مع سيناريوهات التطبيق المختلفة.
الممارسات الأساسية: تحسين أداء النموذج من خلال استبدال الصور الحقيقية بالصور الاصطناعية، وتوسيع قدرة المعلم على النموذج، واستخدام صور مشروحة زائفة واسعة النطاق لتعليم نماذج الطلاب.
ثلاث ممارسات رئيسية لتحسين أداء النموذج:
استخدام الصور الاصطناعية: يتم استبدال جميع الصور الحقيقية المشروحة بالصور الاصطناعية، مما يحسن كفاءة تدريب النموذج.
توسيع قدرة نموذج المعلم: من خلال توسيع قدرة نموذج المعلم، يتم تعزيز قدرة تعميم النموذج.
تطبيق الصور الزائفة المشروحة: استخدم صورًا حقيقية ذات تعليقات توضيحية زائفة واسعة النطاق كجسر لتعليم نماذج الطلاب وتحسين متانة النموذج.
دعم لمجموعة واسعة من سيناريوهات التطبيق:
ولتلبية احتياجات مجموعة واسعة من التطبيقات، يقدم الباحثون نماذج بمقاييس مختلفة ويستفيدون من قدرات التعميم الخاصة بهم من أجل الضبط الدقيق بواسطة ملصقات العمق المتري.
تم إنشاء معيار تقييم متنوع يحتوي على شروح عميقة متفرقة لتسهيل البحث في المستقبل.
أساليب التدريب المبنية على الصور الاصطناعية والحقيقية:
قام الباحثون أولاً بتدريب أكبر نموذج للمعلم على الصور الاصطناعية، ثم قاموا بإنشاء ملصقات زائفة عالية الجودة لصور حقيقية كبيرة الحجم غير مُسماة، وقاموا بتدريب نماذج الطلاب على هذه الصور الحقيقية ذات العلامات الزائفة.
تستخدم عملية التدريب 595 ألف صورة اصطناعية وأكثر من 62 مليون صورة حقيقية ذات علامات زائفة.
يُظهر إطلاق نموذج Depth Anything V2 قدرات ByteDance المبتكرة في مجال تكنولوجيا التعلم العميق، وتشير خصائص أدائه الفعالة والدقيقة إلى أن النموذج يتمتع بإمكانات تطبيقية واسعة في مجال رؤية الكمبيوتر.
عنوان المشروع: https://عمق-anything-v2.github.io/
بشكل عام، يمثل ظهور نموذج Depth Anything V2 قفزة كبيرة للأمام في تقنية تقدير العمق الأحادي. إن كفاءتها العالية ودقتها وآفاق تطبيقها الواسعة تمنحها إمكانات تطوير هائلة في مجال رؤية الكمبيوتر في المستقبل، ومن الجدير التطلع إلى تنفيذها في المزيد من سيناريوهات التطبيق.