ด้วยการพัฒนาอย่างรวดเร็วของเทคโนโลยี AIGC การปลอมแปลงภาพจึงแพร่หลายมากขึ้น วิธีการตรวจจับการปลอมแปลงภาพและการแปลแบบเดิม (IFDL) เผชิญกับความท้าทายในลักษณะ "กล่องดำ" และความสามารถในการสรุปทั่วไปที่ไม่เพียงพอ บรรณาธิการของ Downcodes ได้เรียนรู้ว่าทีมวิจัยของมหาวิทยาลัยปักกิ่งได้เสนอกรอบงานหลายรูปแบบที่เรียกว่า FakeShield ซึ่งมีจุดมุ่งหมายเพื่อแก้ไขปัญหาเหล่านี้ FakeShield ใช้ประโยชน์จากความสามารถอันทรงพลังของโมเดลภาษาขนาดใหญ่ (LLM) อย่างชาญฉลาด โดยเฉพาะอย่างยิ่งโมเดลภาษาขนาดใหญ่หลายรูปแบบ (M-LLM) โดยการสร้างชุดข้อมูลคำอธิบายการงัดแงะหลายรูปแบบ (MMTD-Set) และปรับแต่งโมเดลอย่างละเอียดเพื่อให้บรรลุ โดยจะตรวจจับได้อย่างมีประสิทธิภาพ และค้นหาเทคนิคการปลอมแปลงต่างๆ และให้ผลการวิเคราะห์ที่สามารถตีความได้
ด้วยการพัฒนาอย่างรวดเร็วของเทคโนโลยี AIGC เครื่องมือแก้ไขภาพจึงมีประสิทธิภาพมากขึ้น ทำให้การแก้ไขภาพง่ายขึ้นและตรวจจับได้ยากขึ้น แม้ว่าวิธีการตรวจจับการปลอมแปลงภาพและการแปล (IFDL) ที่มีอยู่โดยทั่วไปจะมีประสิทธิภาพ แต่มักเผชิญกับความท้าทายที่สำคัญสองประการ: ประการแรก ลักษณะ "กล่องดำ" และหลักการตรวจจับที่ไม่ชัดเจน ประการที่สอง ความสามารถในการวางภาพรวมที่จำกัด และความยากลำบากในการจัดการกับวิธีการดัดแปลงหลายวิธี ( เช่น เช่น Photoshop, DeepFake, การแก้ไข AIGC)
เพื่อแก้ไขปัญหาเหล่านี้ ทีมวิจัยของมหาวิทยาลัยปักกิ่งได้เสนองาน IFDL ที่ตีความได้ และออกแบบ FakeShield ซึ่งเป็นเฟรมเวิร์กหลายรูปแบบที่สามารถประเมินความถูกต้องของภาพ สร้างมาสก์พื้นที่ที่ถูกดัดแปลง และตามเบาะแสการปลอมแปลงระดับพิกเซลและระดับภาพ พื้นฐานในการตัดสิน
วิธี IFDL แบบดั้งเดิมสามารถให้เฉพาะความน่าจะเป็นของแท้และพื้นที่การดัดแปลงของภาพ แต่ไม่สามารถอธิบายหลักการตรวจจับได้ เนื่องจากวิธีการ IFDL ที่มีอยู่มีความแม่นยำจำกัด จึงยังจำเป็นต้องมีการพิจารณาด้วยตนเองในภายหลัง อย่างไรก็ตาม เนื่องจากข้อมูลที่ให้โดยวิธี IFDL ไม่เพียงพอที่จะรองรับการประเมินด้วยตนเอง ผู้ใช้จึงยังคงต้องวิเคราะห์รูปภาพที่น่าสงสัยอีกครั้งด้วยตนเอง
นอกจากนี้ ในสถานการณ์จริง การปลอมแปลงมีหลายประเภท รวมถึง Photoshop (คัดลอกย้าย ประกบกัน และลบ) การแก้ไข AIGC, DeepFake ฯลฯ โดยทั่วไปวิธี IFDL ที่มีอยู่จะจัดการได้เฉพาะเทคนิคใดเทคนิคหนึ่งเท่านั้น และขาดความสามารถในการสรุปทั่วไปที่ครอบคลุม การทำเช่นนี้จะบังคับให้ผู้ใช้ระบุประเภทการงัดแงะต่างๆ ล่วงหน้า และใช้วิธีการตรวจจับเฉพาะตามนั้น ซึ่งจะลดประโยชน์ของโมเดลเหล่านี้ลงอย่างมาก
เพื่อแก้ไขปัญหาหลักสองข้อนี้ของวิธีการ IFDL ที่มีอยู่ เฟรมเวิร์ก FakeShield ใช้ประโยชน์จากความสามารถอันทรงพลังของโมเดลภาษาขนาดใหญ่ (LLM) โดยเฉพาะอย่างยิ่งโมเดลภาษาขนาดใหญ่หลายรูปแบบ (M-LLM) ซึ่งสามารถจัดแนวฟีเจอร์ภาพและข้อความได้ จึงช่วยเพิ่มศักยภาพของ LLM มีความสามารถในการเข้าใจภาพที่แข็งแกร่งยิ่งขึ้น เนื่องจาก LLM ได้รับการฝึกอบรมล่วงหน้าเกี่ยวกับคลังความรู้ระดับโลกจำนวนมหาศาลและหลากหลาย พวกเขาจึงมีศักยภาพที่ยอดเยี่ยมในสาขาการใช้งานต่างๆ เช่น การแปลด้วยเครื่อง การเติมโค้ดให้สมบูรณ์ และความเข้าใจด้วยภาพ
แกนหลักของเฟรมเวิร์ก FakeShield คือชุดข้อมูล Multimodal Tamper Description (MMTD-Set) ชุดข้อมูลนี้ใช้ GPT-4o เพื่อปรับปรุงชุดข้อมูล IFDL ที่มีอยู่ และมีรูปภาพที่ถูกดัดแปลงจำนวนสามเท่า มาสก์ขอบเขตที่แก้ไข และคำอธิบายโดยละเอียดของภูมิภาคที่แก้ไข ด้วยการใช้ประโยชน์จาก MMTD-Set ทีมวิจัยได้ปรับแต่ง M-LLM และโมเดลการแบ่งส่วนด้วยภาพ เพื่อให้สามารถให้ผลการวิเคราะห์ที่สมบูรณ์ รวมถึงการตรวจจับการงัดแงะและสร้างมาสก์บริเวณที่ถูกงัดแงะที่แม่นยำ
นอกจากนี้ FakeShield ยังมี Domain Label Guided Interpretable Forgery Detection Module (DTE-FDM) และ Multimodal Forgery Localization Module (MFLM) ซึ่งใช้ในการแก้ไขการตีความการตรวจจับการงัดแงะประเภทต่างๆ ตามลำดับ และใช้การแปลเป็นภาษาท้องถิ่นสำหรับการปลอมแปลงตามคำแนะนำโดยคำอธิบายข้อความโดยละเอียด
การทดลองอย่างกว้างขวางแสดงให้เห็นว่า FakeShield สามารถตรวจจับและระบุตำแหน่งเทคนิคการปลอมแปลงต่างๆ ได้อย่างมีประสิทธิภาพ โดยให้โซลูชันที่ตีความได้และเหนือกว่าเมื่อเปรียบเทียบกับวิธี IFDL ก่อนหน้านี้
ผลการวิจัยนี้เป็นความพยายามครั้งแรกที่จะใช้ M-LLM กับ IFDL ที่ตีความได้ ซึ่งถือเป็นความก้าวหน้าที่สำคัญในสาขานี้ FakeShield ไม่เพียงแต่เก่งในการตรวจจับการงัดแงะเท่านั้น แต่ยังให้คำอธิบายที่ครอบคลุมและการแปลเป็นภาษาท้องถิ่นที่แม่นยำ และแสดงให้เห็นถึงความสามารถในการวางนัยทั่วไปที่แข็งแกร่งสำหรับประเภทการงัดแงะต่างๆ คุณสมบัติเหล่านี้ทำให้เป็นเครื่องมืออเนกประสงค์สำหรับการใช้งานจริงที่หลากหลาย
ในอนาคต งานนี้จะมีบทบาทสำคัญในหลายด้าน เช่น ช่วยปรับปรุงกฎหมายและข้อบังคับที่เกี่ยวข้องกับการจัดการเนื้อหาดิจิทัล การให้คำแนะนำสำหรับการพัฒนาปัญญาประดิษฐ์เชิงกำเนิด และการส่งเสริมสภาพแวดล้อมออนไลน์ที่ชัดเจนและน่าเชื่อถือมากขึ้น . นอกจากนี้ FakeShield ยังสามารถช่วยเหลือในการรวบรวมหลักฐานในการดำเนินคดีทางกฎหมาย และช่วยแก้ไขข้อมูลที่ไม่ถูกต้องในวาทกรรมสาธารณะ ซึ่งท้ายที่สุดแล้วจะช่วยปรับปรุงความสมบูรณ์และความน่าเชื่อถือของสื่อดิจิทัล
หน้าแรกของโครงการ: https://zhipeixu.github.io/projects/FakeShield/
ที่อยู่ GitHub: https://github.com/zhipeixu/FakeShield
ที่อยู่กระดาษ: https://arxiv.org/pdf/2410.02761
การเกิดขึ้นของ FakeShield ได้นำมาซึ่งความก้าวหน้าครั้งใหม่ในด้านการตรวจจับการปลอมแปลงภาพ และความสามารถในการตีความข้อมูลทั่วไปที่แข็งแกร่ง ทำให้มีศักยภาพที่ยอดเยี่ยมในการใช้งานจริง ถือว่าคุ้มค่าที่จะรอคอยการใช้งานในอนาคตในการรักษาความปลอดภัยเครือข่ายและปรับปรุงความน่าเชื่อถือของดิจิทัล สื่อมีบทบาทมากขึ้น บรรณาธิการของ Downcodes เชื่อว่าเทคโนโลยีนี้จะส่งผลเชิงบวกต่อความถูกต้องและความน่าเชื่อถือของเนื้อหาดิจิทัล