في مجال استرجاع الصور، كانت كيفية العثور على الصور المستهدفة بسرعة ودقة دائمًا موضوعًا بحثيًا ساخنًا. يصعب التعامل مع أساليب الاسترجاع النصية التقليدية مع أنماط الاستعلام المتنوعة مثل الرسومات التخطيطية واللوحات الفنية. اقترحت مجموعة أبحاث Yuan Li بجامعة بكين، بالتعاون مع باحثين من جامعة نانيانغ التكنولوجية ومعهد تسينغهوا للأتمتة، طريقة مبتكرة "لاسترجاع النمط العالمي" وقامت ببناء إطار عمل FreestyleRet المقابل لتحقيق استرجاع دقيق للصور ذات الأنماط المختلفة، وقد أحدثت ثورة أدى التقدم في تقنية استرجاع الصور إلى تحسين كفاءة ودقة الاسترجاع بشكل كبير، ووفر للمستخدمين تجربة بحث عن الصور أكثر ملاءمة وأكثر ذكاءً.
في العصر الرقمي، نتعامل مع الصور الضخمة كل يوم. ولكن هل فكرت يومًا كم سيكون من المدهش أن نتمكن من العثور بسرعة على الصورة التي نريدها من خلال رسم تخطيطي أو لوحة فنية أو حتى صورة ضبابية، من مجموعة أبحاث Li بجامعة بكين، بالتعاون مع باحثين من Nanyang Technological؟ لقد جلبت لنا الجامعة ومعهد تسينغهوا للأتمتة مثل هذه المفاجأة - وهي تقنية جديدة تمامًا لاستعادة الصور يمكنها التعامل مع أنماط الاستعلام المتنوعة، سواء كانت رسومات تخطيطية أو لوحات فنية، حتى الصور منخفضة الدقة يمكن مطابقتها بدقة.
جوهر هذه التكنولوجيا هو طريقة "استرجاع النمط العالمي" التي اقترحوها. وهو يختلف عن استرجاع الصور التقليدي القائم على النص، حيث يمكن للطريقة الجديدة التعامل مع أنماط استعلام متعددة وحتى استعلامات مدمجة، مثل الرسومات التخطيطية بالإضافة إلى النص، واللوحات الفنية بالإضافة إلى النص، وما إلى ذلك. وهذا لا يحسن مرونة الاسترجاع فحسب، بل يحسن أيضًا دقة الاسترجاع بشكل كبير.
ولتحقيق هذا الهدف، قام فريق البحث ببناء مجموعتي بيانات فريدتين: DSR (مجموعة بيانات الاسترجاع ذات النمط المتنوع) وImageNet-X. يحتوي DSR على 10000 صورة طبيعية ونصوص مقابلة لأربعة أنماط استرجاعية، بينما يحتوي ImageNet-X على مليون صورة طبيعية مع تعليقات توضيحية مختلفة للأنماط. يوفر إنشاء مجموعتي البيانات هاتين موارد تدريب واختبار غنية للطرق الجديدة.
والأمر الأكثر إثارة هو أن فريق البحث اقترح أيضًا إطارًا يسمى FreestyleRet. يعمل هذا الإطار بشكل فعال على حل مشكلة عدم توافق النماذج الحالية مع أنواع مختلفة من متجهات الاسترجاع عن طريق استخراج نمط الصورة وإدخاله في نموذج الاسترجاع. يتكون إطار عمل FreestyleRet من ثلاث وحدات رئيسية: وحدة استخراج النمط، ووحدة بناء مساحة النمط، ووحدة الضبط الدقيق للتلميحات المستوحاة من الأسلوب. تعمل هذه الوحدات معًا لتمكين نموذج الاسترجاع من فهم ومعالجة الأنماط المختلفة لمتجهات الاستعلام.
في التجارب، أظهر إطار عمل FreestyleRet أداءً ممتازًا. فهو لا يحقق تحسينات كبيرة في أداء Recall@1 وRecall@5 في مجموعات بيانات DSR وImageNet-X فحسب، بل يُظهر أيضًا إمكانات تعميم جيدة وقابلية للتوسع عند معالجة أنماط متعددة ومختلفة من متجهات الاستعلام.
تم نشر نتائج هذا البحث علنًا، ويمكن الاطلاع على الورقة التفصيلية على arXiv. وفي الوقت نفسه، تم أيضًا فتح مجموعات التعليمات البرمجية والبيانات ذات الصلة لمزيد من الاستكشاف والتطبيق من قبل الباحثين والمطورين المهتمين.
هذه ليست مجرد قفزة تكنولوجية في مجال استرجاع الصور، ولكنها أيضًا راحة كبيرة لكل واحد منا في حياتنا اليومية. تخيل أنه في المستقبل، سواء كنا نبحث عن الإلهام، أو إجراء بحث أكاديمي، أو الترفيه اليومي، سنكون قادرين على العثور على موارد الصور التي نحتاجها بسرعة أكبر وبدقة أكبر. هذه هي قوة التكنولوجيا التي تجعل كل شيء ممكنا.
عنوان الورقة: https://arxiv.org/pdf/2312.02428
توفر تقنية استرجاع الصور هذه المستندة إلى "استرجاع النمط العالمي" إمكانيات جديدة لعمليات البحث عن الصور في المستقبل. وستعمل مجموعات التعليمات البرمجية والبيانات مفتوحة المصدر على تعزيز المزيد من التطوير في هذا المجال، وتوفير الدعم الفني لمزيد من سيناريوهات التطبيق، وجعلها أكثر ملاءمة للعصر للبحث الفعال عن الصور.