نموذج تنبؤ الإجراء مفتوح المصدر ViTPose: يمكنه التنبؤ بالإجراءات والتعليق عليها في كل إطار - مقالة AI

الكاتب：Eve Cole وقت التحديث：2025-01-27 18:00:03

ViTPose هو نموذج مفتوح المصدر لتقدير وضعية الإنسان يعتمد على المحول البصري، المعروف ببنيته البسيطة والفعالة وأدائه الممتاز. فهو يتخلى عن الشبكات العصبية التلافيفية المعقدة ويستخدم فقط طبقات المحولات المكدسة لاستخراج ميزات الصورة، ويمكنه ضبط حجم النموذج ودقة الإدخال وفقًا للاحتياجات لتحقيق التوازن بين الأداء والسرعة. حقق هذا النموذج نتائج ممتازة في مجموعة بيانات MS COCO، حتى أنه تجاوز العديد من النماذج الأكثر تعقيدًا، ويدعم نقل المعرفة، بحيث يمكن للنماذج الصغيرة أيضًا أن تتمتع بقدرات النماذج الكبيرة. كودها ونماذجها مفتوحة المصدر تسهل البحث والتطوير.

يستخدم ViTPose في جوهره محولًا مرئيًا بحتًا، والذي يعمل مثل "الهيكل العظمي" القوي لاستخراج الميزات الرئيسية في الصورة. ولا يتطلب مساعدة الشبكات العصبية التلافيفية المعقدة (CNN) مثل النماذج الأخرى. هيكلها بسيط للغاية، أي أن العديد من المحولات يتم وضعها في طبقات معًا.

يمكن تغيير حجم نماذج ViTPose حسب الحاجة. مثل المسطرة القابلة للتمدد، يمكنك التحكم في حجم النموذج الخاص بك عن طريق زيادة أو تقليل عدد طبقات المحولات لإيجاد التوازن بين الأداء والسرعة. يمكنك أيضًا ضبط دقة الصورة المدخلة وسيتكيف النموذج. بالإضافة إلى ذلك، يمكنه معالجة مجموعات بيانات متعددة في وقت واحد، أي أنه يمكنك استخدامه للتعرف على البيانات من أوضاع مختلفة.

على الرغم من بنيته البسيطة، فإن أداء ViTPose جيد جدًا في تقدير وضعية الإنسان. لقد حقق نتائج جيدة جدًا على مجموعة بيانات MS COCO الشهيرة، حتى أنه تجاوز العديد من النماذج الأكثر تعقيدًا. وهذا يوضح أن النماذج البسيطة يمكن أن تكون قوية جدًا. ميزة أخرى لـ ViTPose هي أنه يمكنه نقل "المعرفة" من النماذج الكبيرة إلى النماذج الصغيرة. يبدو الأمر كما لو أن المعلم ذو الخبرة يمكنه نقل المعرفة للطلاب، بحيث تتمتع النماذج الصغيرة بقوة النماذج الكبيرة.

أكواد ونماذج ViTPose مفتوحة المصدر، مما يعني أنه يمكن لأي شخص استخدامها مجانًا وإجراء البحث والتطوير عليها.

يشبه ViTPose أداة بسيطة ولكنها قوية تساعد أجهزة الكمبيوتر على فهم تصرفات الإنسان. مزاياها هي البساطة والمرونة والكفاءة وسهولة التعلم. وهذا يجعله نموذجًا أساسيًا واعدًا جدًا في مجال تقدير الوضع البشري.

يستخدم النموذج طبقة محول لمعالجة بيانات الصورة ووحدة فك ترميز خفيفة الوزن للتنبؤ بالنقاط الرئيسية. يمكن لوحدة فك التشفير استخدام طبقات تفكيك بسيطة أو استيفاء ثنائي الخط لتجميع خرائط المعالم. لا يعمل ViTPose بشكل جيد على مجموعات البيانات القياسية فحسب، بل يعمل أيضًا بشكل جيد في التعامل مع الانسدادات والأوضاع المختلفة. يمكن تطبيقه على مهام مختلفة مثل تقدير وضعية الإنسان، وتقدير وضعية الحيوان، واكتشاف النقاط الرئيسية للوجه.

العرض التوضيحي: https://huggingface.co/spaces/hysts/ViTPose-transformers

النموذج: https://huggingface.co/collections/usyd-community/vitpose-677fcfd0a0b2b5c8f79c4335

بشكل عام، يوفر ViTPose نموذجًا أساسيًا قويًا في مجال تقدير وضعية الإنسان ببنيته الفعالة وأدائه الممتاز، كما تسهل ميزة المصدر المفتوح مشاركة المزيد من الباحثين والمطورين وتعزز تطوير هذا المجال. البساطة والكفاءة وسهولة الاستخدام هي مزاياها الأساسية.