مع التطور السريع لتقنية AIGC، أصبح التلاعب بالصور منتشرًا بشكل متزايد. تواجه الطريقة التقليدية لاكتشاف التلاعب بالصور وتعريبها (IFDL) تحدي طبيعة "الصندوق الأسود" وعدم كفاية القدرة على التعميم. وعلم محرر موقع Downcodes أن فريق بحث من جامعة بكين اقترح إطارًا متعدد الوسائط يسمى FakeShield، والذي يهدف إلى حل هذه المشكلات. يستفيد FakeShield بذكاء من القدرات القوية لنماذج اللغات الكبيرة (LLM)، وخاصة نماذج اللغات الكبيرة متعددة الوسائط (M-LLM)، من خلال بناء مجموعة بيانات وصف العبث متعدد الوسائط (MMTD-Set) وضبط النموذج لتحقيقه يكتشف بشكل فعال ويحدد تقنيات التلاعب المختلفة ويوفر نتائج تحليل قابلة للتفسير.
مع التطور السريع لتقنية AIGC، أصبحت أدوات تحرير الصور قوية بشكل متزايد، مما يجعل اكتشاف التلاعب بالصور أسهل وأكثر صعوبة. على الرغم من أن طرق الكشف عن التلاعب بالصور وتعريبها (IFDL) فعالة بشكل عام، إلا أنها غالبًا ما تواجه تحديين رئيسيين: أولاً، طبيعة "الصندوق الأسود" ومبادئ الكشف غير الواضحة؛ وثانيًا، القدرة المحدودة على التعميم وصعوبة التعامل مع طرق التلاعب المتعددة (مثل مثل تحرير Photoshop وDeepFake وAIGC).
لحل هذه المشكلات، اقترح فريق البحث في جامعة بكين مهمة IFDL القابلة للتفسير وصمم FakeShield، وهو إطار عمل متعدد الوسائط قادر على تقييم صحة الصور، وإنشاء أقنعة منطقة تم العبث بها، واستنادًا إلى مستوى البكسل ومستوى الصورة، توفر أدلة التلاعب أساس للحكم.
يمكن أن توفر طريقة IFDL التقليدية فقط احتمالية الأصالة ومنطقة التلاعب في الصورة، ولكنها لا تستطيع شرح مبدأ الكشف. ونظرًا للدقة المحدودة لأساليب IFDL الحالية، لا يزال الحكم اليدوي اللاحق مطلوبًا. ومع ذلك، نظرًا لأن المعلومات المقدمة بواسطة طريقة IFDL غير كافية لدعم التقييم اليدوي، فلا يزال المستخدمون بحاجة إلى إعادة تحليل الصور المشبوهة بأنفسهم.
بالإضافة إلى ذلك، في سيناريوهات الحياة الواقعية، هناك أنواع مختلفة من التلاعب، بما في ذلك Photoshop (نقل النسخ، واللصق والإزالة)، وتحرير AIGC، وDeepFake، وما إلى ذلك. عادةً ما تستطيع أساليب IFDL الحالية التعامل مع إحدى التقنيات فقط وتفتقر إلى إمكانات التعميم الشاملة. وهذا يجبر المستخدمين على تحديد أنواع التلاعب المختلفة مسبقًا وتطبيق طرق كشف محددة وفقًا لذلك، مما يقلل بشكل كبير من فائدة هذه النماذج.
لحل هاتين المشكلتين الرئيسيتين لطرق IFDL الحالية، يستفيد إطار عمل FakeShield من القدرات القوية لنماذج اللغات الكبيرة (LLMs)، وخاصة نماذج اللغات الكبيرة متعددة الوسائط (M-LLMs)، القادرة على محاذاة الميزات المرئية والنصية، وبالتالي تمكين LLM يتمتع بقدرات فهم بصرية أقوى. نظرًا لأن حاملي شهادات الماجستير في القانون قد تم تدريبهم مسبقًا على مجموعة ضخمة ومتنوعة من المعرفة العالمية، فإن لديهم إمكانات كبيرة في العديد من مجالات التطبيق مثل الترجمة الآلية وإكمال التعليمات البرمجية والفهم البصري.
جوهر إطار عمل FakeShield هو مجموعة بيانات وصف العبث متعدد الوسائط (MMTD-Set). تستخدم مجموعة البيانات هذه GPT-4o لتعزيز مجموعة بيانات IFDL الحالية وتحتوي على ثلاث صور تم العبث بها وأقنعة المنطقة المعدلة والأوصاف التفصيلية للمنطقة المحررة. من خلال الاستفادة من MMTD-Set، قام فريق البحث بضبط نماذج M-LLM ونماذج التجزئة المرئية حتى يتمكنوا من تقديم نتائج تحليل كاملة، بما في ذلك الكشف عن العبث وإنشاء أقنعة دقيقة لمنطقة التلاعب.
يتضمن FakeShield أيضًا وحدة اكتشاف التزوير الموجهة للتفسير (DTE-FDM) ووحدة توطين التزوير متعدد الوسائط (MFLM)، والتي يتم استخدامها على التوالي لحل أنواع مختلفة من تفسير اكتشاف التلاعب وتنفيذ توطين التزوير مسترشدًا بأوصاف نصية مفصلة.
تظهر التجارب المكثفة أن FakeShield يمكنه اكتشاف تقنيات التلاعب المختلفة وتحديد موقعها بشكل فعال، مما يوفر حلاً متميزًا وقابل للتفسير مقارنة بطرق IFDL السابقة.
نتيجة البحث هذه هي المحاولة الأولى لتطبيق M-LLM على IFDL القابل للتفسير، مما يمثل تقدمًا كبيرًا في هذا المجال. لا يعد برنامج FakeShield جيدًا في اكتشاف العبث فحسب، بل يوفر أيضًا تفسيرات شاملة وتوطينًا دقيقًا، ويظهر قدرات تعميم قوية على أنواع العبث المختلفة. هذه الميزات تجعلها أداة مساعدة متعددة الاستخدامات لمجموعة متنوعة من تطبيقات العالم الحقيقي.
في المستقبل، سيلعب هذا العمل دورًا حيويًا في مجالات متعددة، مثل المساعدة في تحسين القوانين واللوائح المتعلقة بمعالجة المحتوى الرقمي، وتوفير التوجيه لتطوير الذكاء الاصطناعي التوليدي، وتعزيز بيئة أكثر وضوحًا وجديرة بالثقة على الإنترنت. . بالإضافة إلى ذلك، يمكن لـ FakeShield المساعدة في جمع الأدلة في الإجراءات القانونية والمساعدة في تصحيح المعلومات الخاطئة في الخطاب العام، مما يساعد في النهاية على تحسين سلامة وموثوقية الوسائط الرقمية.
الصفحة الرئيسية للمشروع: https://zhipeixu.github.io/projects/FakeShield/
عنوان جيثب: https://github.com/zhipeixu/FakeShield
عنوان الورقة: https://arxiv.org/pdf/2410.02761
لقد أدى ظهور FakeShield إلى تحقيق اختراقات جديدة في مجال اكتشاف التلاعب بالصور. إن قابليتها للتفسير وإمكانيات التعميم القوية تجعلها تتمتع بإمكانات كبيرة في التطبيقات العملية، ومن الجدير التطلع إلى استخدامها في المستقبل في الحفاظ على أمان الشبكة وتحسين مصداقية البيانات الرقمية وسائل الإعلام تلعب دورا أكبر. يعتقد محرر Downcodes أن هذه التقنية سيكون لها تأثير إيجابي على صحة وموثوقية المحتوى الرقمي.