سيقدم لك محرر Downcodes SegVG، وهو إطار عمل جديد يحل مشكلة تحديد موضع الهدف في مجال رؤية الذكاء الاصطناعي! تشبه خوارزمية تحديد موقع الهدف التقليدية "قصر النظر"، حيث يمكنها فقط تحديد الهدف بشكل تقريبي ولا يمكنها التقاط التفاصيل. يخترق SegVG عنق الزجاجة هذا ويستخدم معلومات مفصلة على مستوى البكسل لجعل الذكاء الاصطناعي يشعر وكأنه يرتدي "نظارات عالية الوضوح" ويحدد بدقة كل بكسل للهدف. ستقدم هذه المقالة مبدأ العمل ومزايا وإمكانات SegVG في التطبيقات العملية بطريقة بسيطة وسهلة الفهم، وسترفق روابط للأوراق والأكواد لتسهيل الدراسة والبحث المتعمق للقراء.
في مجال رؤية الذكاء الاصطناعي، كان تحديد المواقع المستهدفة دائمًا مشكلة صعبة. تشبه الخوارزمية التقليدية "قصر النظر"، حيث يمكنها فقط تطويق الهدف بـ "إطار" تقريبًا، ولكن لا يمكنها رؤية التفاصيل الموجودة بداخله بوضوح. هذا مثل وصف شخص لصديق وإعطاء الطول العام وشكل الجسم فقط، ومن الغريب أن يتمكن صديقك من العثور على الشخص!
من أجل حل هذه المشكلة، قامت مجموعة من الخبراء من معهد إلينوي للتكنولوجيا ومعهد أبحاث سيسكو وجامعة سنترال فلوريدا بتطوير إطار عمل جديد لتحديد المواقع المرئية يسمى SegVG، بدعوى جعل الذكاء الاصطناعي يودع "قصر النظر"!
السر الأساسي لـ SegVG هو: تفاصيل "على مستوى البكسل" تستخدم الخوارزمية التقليدية فقط معلومات المربع المحيط لتدريب الذكاء الاصطناعي، وهو ما يعادل إظهار ظل ضبابي للذكاء الاصطناعي فقط. يقوم SegVG بتحويل معلومات المربع المحيط إلى إشارات تجزئة، وهو ما يعادل وضع "نظارات عالية الوضوح" على الذكاء الاصطناعي، مما يسمح للذكاء الاصطناعي برؤية كل بكسل من الهدف بوضوح!
على وجه التحديد، تتبنى SegVG "وحدة فك ترميز وتشفير متعددة المهام ومتعددة الطبقات". يبدو الاسم معقدًا، ولكن يمكنك في الواقع التفكير فيه باعتباره "مجهرًا" فائق التطور يحتوي على استعلامات للانحدار واستعلامات متعددة للتجزئة. لتبسيط الأمر، يتم استخدام "عدسات" مختلفة لتنفيذ مهام انحدار المربع المحيط وتقسيمه على التوالي، ويتم ملاحظة الهدف بشكل متكرر لاستخراج معلومات أكثر دقة.
والأمر الأكثر قوة هو أن SegVG تقدم أيضًا "وحدة محاذاة ثلاثية"، وهو ما يعادل تزويد الذكاء الاصطناعي بـ "مترجم" لحل مشكلة "حاجز اللغة" على وجه التحديد بين معلمات التدريب المسبق للنموذج وتضمين الاستعلام. من خلال آلية الاهتمام الثلاثي، يمكن لهذا "المترجم" "ترجمة" الاستعلامات والميزات النصية والمرئية إلى نفس القناة، مما يسمح للذكاء الاصطناعي بفهم معلومات الهدف بشكل أفضل.
ما هو تأثير SegVG؟ أجرى الخبراء تجارب على خمس مجموعات بيانات شائعة الاستخدام ووجدوا أن أداء SegVG هزم العديد من الخوارزميات التقليدية، خاصة في "الصعوبتين" سيئتي السمعة لـ RefCOCO+ وRefCOCOg "في مجموعة البيانات، حققت SegVG نجاحًا كبيرًا". نتائج اختراق!
بالإضافة إلى تحديد المواقع بدقة، يمكن لـ SegVG أيضًا إخراج درجة الثقة لتنبؤات النماذج. وبكل بساطة، سيخبرك الذكاء الاصطناعي بمدى ثقته في حكمه. وهذا مهم جدًا في التطبيقات العملية، على سبيل المثال، إذا كنت تريد استخدام الذكاء الاصطناعي للتعرف على الصور الطبية، وإذا لم تكن ثقة الذكاء الاصطناعي عالية، فستحتاج إلى مراجعته يدويًا لتجنب التشخيص الخاطئ.
يعد المصدر المفتوح لـ SegVG فائدة كبيرة لمجال رؤية الذكاء الاصطناعي بأكمله، وأعتقد أن المزيد والمزيد من المطورين والباحثين سينضمون إلى معسكر SegVG في المستقبل للترويج بشكل مشترك لتطوير تكنولوجيا رؤية الذكاء الاصطناعي.
عنوان الورقة: https://arxiv.org/pdf/2407.03200
رابط الكود: https://github.com/WeitaiKang/SegVG/tree/main
بشكل عام، يوفر ظهور SegVG أفكارًا وأساليب جديدة لتحديد المواقع المستهدفة بدقة في مجال رؤية الذكاء الاصطناعي، كما يوفر مصدرها المفتوح أيضًا موارد تعليمية وبحثية قيمة للمطورين. أعتقد أن التطوير المستقبلي لـ SegVG سيكون له تأثير عميق على تقنية رؤية الذكاء الاصطناعي ويستحق اهتمامنا المستمر!