حقق Sapiens، أحدث نموذج للذكاء الاصطناعي أطلقته شركة Meta Reality Labs، طفرة كبيرة في معالجة المهام البصرية البشرية. يمكنه تحليل أوضاع الإنسان وحركاته وتفاصيل أجزاء الجسم الدقيقة بدقة في الصور ومقاطع الفيديو، مع الحفاظ على دقة عالية حتى في البيئات المعقدة أو عندما تكون البيانات نادرة. تحتوي مجموعة بيانات تدريب Sapiens على أكثر من 300 مليون صورة بشرية وتستخدم بنية المحولات المرئية المتقدمة وتقنية التعلم متعددة المهام لمنحها قدرات تعميمية قوية ومتانة. ولديها مجموعة واسعة من آفاق التطبيق، تغطي مجالات مثل المراقبة بالفيديو، والواقع الافتراضي، والرعاية الطبية ووسائل التواصل الاجتماعي، ومن المتوقع أن تحدث ثورة في أساليب التفاعل بين الإنسان والحاسوب وقدرات تحليل البيانات في هذه المجالات.
تشمل الوظائف الأساسية لنموذج Sapiens تقدير الوضع ثنائي الأبعاد، وتجزئة أجزاء الجسم، وتقدير العمق، والتنبؤ الطبيعي للسطح. من خلال هذه الوظائف، يمكن للعاقل التعرف بدقة على وضعية الإنسان، والتمييز بدقة بين أجزاء الجسم المختلفة، والتنبؤ بمعلومات العمق واتجاه سطح الجسم في الصور. التفوق على الأساليب الحديثة الحالية في مهام متعددة، مما يدل على الدقة العالية والاتساق. إن أدائها القوي وآفاق تطبيقها الواسعة تجعلها إنجازًا مهمًا في مجال الذكاء الاصطناعي. تم إرفاق عنوان المشروع وعنوان الأطروحة، مرحبا بكم في الزيارة لمزيد من المعلومات.
من منظور تقني، يستخدم Sapiens عدة أساليب متقدمة. أولاً، تم تدريبه مسبقًا استنادًا إلى مجموعة بيانات واسعة النطاق تحتوي على 300 مليون صورة، مما يوفر للنموذج إمكانات تعميم قوية. ثانيًا، يتبنى Sapiens بنية محولات بصرية قادرة على معالجة المدخلات عالية الدقة وتنفيذ التفكير الدقيق. بالإضافة إلى ذلك، من خلال التدريب المسبق لجهاز التشفير التلقائي المقنع والتعلم متعدد المهام، يستطيع Sapiens تعلم تمثيلات قوية للميزات والتعامل مع العديد من المهام المعقدة في وقت واحد.
آفاق تطبيق العاقل واسعة جدًا. وفي مجالات المراقبة بالفيديو والواقع الافتراضي، يمكنه تحليل الحركات والأوضاع البشرية في الوقت الفعلي، مما يوفر الدعم لالتقاط الحركة والتفاعل بين الإنسان والكمبيوتر. في المجال الطبي، يمكن لـ Sapiens مساعدة المتخصصين الطبيين في مراقبة المرضى وتوجيههم لإعادة التأهيل من خلال التحليل الدقيق للوضعية والجزء. بالنسبة لمنصات التواصل الاجتماعي، يمكن استخدام Sapiens لتحليل الصور التي تم تحميلها من قبل المستخدمين لتوفير تجربة تفاعلية أكثر ثراءً. وفي مجالات الواقع الافتراضي والواقع المعزز، يساعد على إنشاء صور بشرية أكثر واقعية ويعزز تجربة المستخدم الغامرة.
تظهر النتائج التجريبية أن الإنسان العاقل يتفوق في الأداء على الأساليب الحديثة الموجودة في مهام متعددة. لقد أظهر Sapiens دقة عالية واتساقًا في اكتشاف النقاط الرئيسية للجسم بأكمله والوجه واليدين والقدمين، وكذلك في تجزئة أجزاء الجسم وتقدير العمق ومهام التنبؤ الطبيعية السطحية.
عنوان المشروع: https://about.meta.com/realitylabs/codecavatars/sapiens
عنوان الورقة: https://arxiv.org/pdf/2408.12569
بشكل عام، يمثل نموذج Sapiens تقدمًا كبيرًا في مجال الفهم البصري البشري للذكاء الاصطناعي، كما يوفر أدائه القوي وإمكانيات تطبيقه الواسعة إمكانيات جديدة للابتكار التكنولوجي المستقبلي. ونحن نتطلع إلى أن يلعب الإنسان العاقل دورًا في المزيد من المجالات وتعزيز التقدم التكنولوجي.