Dengan pesatnya perkembangan teknologi AIGC, gangguan gambar menjadi semakin merajalela. Metode deteksi dan lokalisasi kerusakan gambar (IFDL) tradisional menghadapi tantangan sifat "kotak hitam" dan kemampuan generalisasi yang tidak memadai. Editor Downcodes mengetahui bahwa tim peneliti Universitas Peking mengusulkan kerangka kerja multi-modal yang disebut FakeShield, yang bertujuan untuk memecahkan masalah ini. FakeShield dengan cerdik memanfaatkan kemampuan kuat model bahasa besar (LLM), terutama model bahasa besar multimodal (M-LLM), dengan membangun kumpulan data deskripsi kerusakan multimodal (MMTD-Set) dan menyempurnakan model untuk mencapai deteksi yang efektif. dan menemukan berbagai teknik gangguan dan memberikan hasil analisis yang dapat ditafsirkan.
Dengan pesatnya perkembangan teknologi AIGC, alat pengeditan gambar menjadi semakin canggih, membuat gangguan gambar menjadi lebih mudah dan sulit dideteksi. Meskipun metode deteksi dan lokalisasi gangguan gambar (IFDL) yang ada secara umum efektif, metode ini sering kali menghadapi dua tantangan utama: pertama, sifat "kotak hitam" dan prinsip deteksi yang tidak jelas. Kedua, kemampuan generalisasi yang terbatas dan kesulitan dalam menangani beberapa metode gangguan (seperti seperti pengeditan Photoshop, DeepFake, AIGC).
Untuk mengatasi masalah ini, tim peneliti Universitas Peking mengusulkan tugas IFDL yang dapat ditafsirkan dan merancang FakeShield, kerangka kerja multi-modal yang mampu mengevaluasi keaslian gambar, menghasilkan masker area yang dirusak, dan berdasarkan pada tingkat piksel dan gambar. dasar penilaian.
Metode IFDL tradisional hanya dapat memberikan probabilitas keaslian dan area gangguan pada gambar, tetapi tidak dapat menjelaskan prinsip pendeteksiannya. Karena keterbatasan akurasi metode IFDL yang ada, penilaian manual selanjutnya masih diperlukan. Namun, karena informasi yang diberikan oleh metode IFDL tidak cukup untuk mendukung evaluasi manual, pengguna masih perlu menganalisis ulang sendiri gambar yang mencurigakan.
Selain itu, dalam skenario kehidupan nyata, terdapat berbagai jenis gangguan, termasuk Photoshop (menyalin pemindahan, menyambung, dan menghapus), pengeditan AIGC, DeepFake, dll. Metode IFDL yang ada biasanya hanya dapat menangani salah satu teknik dan kurang memiliki kemampuan generalisasi yang komprehensif. Hal ini memaksa pengguna untuk mengidentifikasi berbagai jenis gangguan terlebih dahulu dan menerapkan metode deteksi spesifik yang sesuai, sehingga sangat mengurangi kegunaan model ini.
Untuk mengatasi dua masalah utama metode IFDL yang ada, kerangka FakeShield memanfaatkan kemampuan kuat model bahasa besar (LLM), terutama model bahasa besar multimodal (M-LLM), yang mampu menyelaraskan fitur visual dan tekstual, sehingga memberdayakan LLM memiliki kemampuan pemahaman visual yang lebih kuat. Karena LLM telah dilatih sebelumnya mengenai kumpulan pengetahuan dunia yang sangat besar dan beragam, mereka memiliki potensi besar di banyak bidang aplikasi seperti terjemahan mesin, penyelesaian kode, dan pemahaman visual.
Inti dari kerangka FakeShield adalah Multimodal Tamper Description Dataset (MMTD-Set). Kumpulan data ini menggunakan GPT-4o untuk menyempurnakan kumpulan data IFDL yang ada dan berisi tiga kali lipat gambar yang diubah, masker wilayah yang dimodifikasi, dan deskripsi detail wilayah yang diedit. Dengan memanfaatkan MMTD-Set, tim peneliti menyempurnakan M-LLM dan model segmentasi visual sehingga dapat memberikan hasil analisis yang lengkap, termasuk mendeteksi gangguan dan menghasilkan masker area yang dirusak secara akurat.
FakeShield juga menyertakan Modul Deteksi Pemalsuan yang Dipandu Label Domain (DTE-FDM) dan Modul Lokalisasi Pemalsuan Multimodal (MFLM), yang masing-masing digunakan untuk menyelesaikan berbagai jenis interpretasi deteksi kerusakan dan menerapkan lokalisasi pemalsuan yang dipandu oleh deskripsi teks terperinci.
Eksperimen ekstensif menunjukkan bahwa FakeShield dapat secara efektif mendeteksi dan menemukan berbagai teknik gangguan, memberikan solusi yang dapat diinterpretasikan dan lebih unggul dibandingkan metode IFDL sebelumnya.
Hasil penelitian ini adalah upaya pertama untuk menerapkan M-LLM pada IFDL yang dapat diinterpretasikan, yang menandai kemajuan signifikan dalam bidang ini. FakeShield tidak hanya bagus dalam mendeteksi gangguan, tetapi juga memberikan penjelasan komprehensif dan lokalisasi yang tepat, serta menunjukkan kemampuan generalisasi yang kuat untuk berbagai jenis kerusakan. Fitur-fitur ini menjadikannya alat utilitas serbaguna untuk berbagai aplikasi dunia nyata.
Di masa depan, pekerjaan ini akan memainkan peran penting di berbagai bidang, seperti membantu menyempurnakan undang-undang dan peraturan terkait manipulasi konten digital, memberikan panduan untuk pengembangan kecerdasan buatan generatif, dan mendorong lingkungan online yang lebih jelas dan tepercaya. . Selain itu, FakeShield dapat membantu pengumpulan bukti dalam proses hukum dan membantu mengoreksi kesalahan informasi dalam wacana publik, yang pada akhirnya membantu meningkatkan integritas dan keandalan media digital.
Beranda proyek: https://zhipeixu.github.io/projects/FakeShield/
Alamat GitHub: https://github.com/zhipeixu/FakeShield
Alamat makalah: https://arxiv.org/pdf/2410.02761
Kemunculan FakeShield telah membawa terobosan baru di bidang deteksi gangguan gambar. Kemampuan interpretasi dan kemampuan generalisasinya yang kuat menjadikannya memiliki potensi besar dalam aplikasi praktis. Perlu dinantikan penggunaannya di masa depan dalam menjaga keamanan jaringan dan meningkatkan kredibilitas digital media. Editor Downcodes percaya bahwa teknologi ini akan memberikan dampak positif pada keaslian dan keandalan konten digital.