AIGC 기술의 급속한 발전으로 인해 이미지 변조가 점점 만연해졌습니다. 기존의 IFDL(이미지 변조 감지 및 위치 파악 방법)은 "블랙박스" 특성과 부족한 일반화 능력이라는 문제에 직면해 있습니다. Downcodes의 편집자는 Peking University 연구팀이 이러한 문제를 해결하는 것을 목표로 하는 FakeShield라는 다중 모드 프레임워크를 제안했다는 사실을 알게 되었습니다. FakeShield는 다중 모드 변조 설명 데이터 세트(MMTD-Set)를 구축하고 모델을 미세 조정하여 대규모 언어 모델(LLM), 특히 다중 모드 대형 언어 모델(M-LLM)의 강력한 기능을 교묘하게 활용합니다. 다양한 변조 기법을 찾아 해석 가능한 분석 결과를 제공합니다.
AIGC 기술의 급속한 발전으로 인해 이미지 편집 도구가 점점 더 강력해지면서 이미지 변조를 감지하기가 더 쉬워지고 감지하기가 더 어려워졌습니다. 기존 IFDL(이미지 변조 감지 및 위치 파악 방법)은 일반적으로 효과적이지만 두 가지 주요 문제에 직면하는 경우가 많습니다. 첫째, "블랙박스" 특성과 불분명한 감지 원리, 둘째, 제한된 일반화 능력과 여러 변조 방법을 처리하는 데 어려움이 있습니다. Photoshop, DeepFake, AIGC 편집 등).
이러한 문제를 해결하기 위해 북경대학교 연구팀은 해석 가능한 IFDL 작업을 제안하고 이미지의 진위 여부를 평가하고 변조된 영역 마스크를 생성하며 픽셀 수준 및 이미지 레벨 변조 단서를 기반으로 하는 다중 모드 프레임워크인 FakeShield를 설계했습니다. 판단의 근거.
기존 IFDL 방법은 이미지의 진위 확률과 변조 영역만 제공할 수 있을 뿐 탐지 원리를 설명할 수 없습니다. 기존 IFDL 방법의 정확성이 제한되어 있기 때문에 수동 후속 판단이 여전히 필요합니다. 그러나 IFDL 방식으로 제공되는 정보는 수동 평가를 지원하기에는 충분하지 않기 때문에 의심스러운 이미지를 사용자가 직접 재분석해야 합니다.
이 밖에도 실제 시나리오에서는 포토샵(복사 이동, 접합 및 제거), AIGC 편집, DeepFake 등 다양한 유형의 변조가 존재합니다. 기존 IFDL 방법은 일반적으로 기술 중 하나만 처리할 수 있으며 포괄적인 일반화 기능이 부족합니다. 이로 인해 사용자는 다양한 변조 유형을 미리 식별하고 그에 따라 특정 탐지 방법을 적용해야 하므로 이러한 모델의 유용성이 크게 줄어듭니다.
기존 IFDL 방법의 이러한 두 가지 주요 문제를 해결하기 위해 FakeShield 프레임워크는 대규모 언어 모델(LLM), 특히 시각적 및 텍스트 기능을 정렬할 수 있는 다중 모드 대규모 언어 모델(M-LLM)의 강력한 기능을 활용하여 LLM을 강화합니다. 시각적 이해 능력이 더욱 강력해졌습니다. LLM은 방대하고 다양한 세계 지식 모음에 대해 사전 교육을 받았기 때문에 기계 번역, 코드 완성 및 시각적 이해와 같은 많은 응용 분야에서 큰 잠재력을 가지고 있습니다.
FakeShield 프레임워크의 핵심은 MMTD-Set(Multimodal Tamper Description Dataset)입니다. 이 데이터 세트는 GPT-4o를 활용하여 기존 IFDL 데이터 세트를 향상시키고 세 개의 변조된 이미지, 수정된 영역 마스크 및 편집된 영역 세부 설명을 포함합니다. 연구팀은 MMTD-Set을 활용하여 M-LLM 및 시각적 분할 모델을 미세 조정하여 변조 감지 및 정확한 변조 영역 마스크 생성을 포함한 완전한 분석 결과를 제공할 수 있었습니다.
FakeShield에는 또한 DTE-FDM(도메인 레이블 유도 해석 가능 위조 탐지 모듈) 및 MFLM(다중 모드 위조 현지화 모듈)이 포함되어 있으며, 이는 각각 다양한 유형의 변조 탐지 해석을 해결하고 자세한 텍스트 설명에 따라 위조 현지화를 구현하는 데 사용됩니다.
광범위한 실험을 통해 FakeShield는 다양한 변조 기술을 효과적으로 탐지하고 찾을 수 있으며 이전 IFDL 방법에 비해 해석 가능하고 우수한 솔루션을 제공할 수 있음이 입증되었습니다.
이번 연구 결과는 M-LLM을 해석 가능한 IFDL에 적용하려는 첫 번째 시도로, 이 분야에서 상당한 진전을 이루었습니다. FakeShield는 변조 감지에 능숙할 뿐만 아니라 포괄적인 설명과 정확한 위치 파악을 제공하며 다양한 변조 유형에 대한 강력한 일반화 기능을 보여줍니다. 이러한 기능을 통해 다양한 실제 응용 프로그램을 위한 다목적 유틸리티 도구가 됩니다.
앞으로 이 작업은 디지털 콘텐츠 조작과 관련된 법률 및 규정 개선에 도움을 주고, 생성 인공 지능 개발을 위한 지침을 제공하고, 보다 명확하고 신뢰할 수 있는 온라인 환경을 조성하는 등 여러 분야에서 중요한 역할을 할 것입니다. . 또한 FakeShield는 법적 절차에서 증거 수집을 지원하고 공개 담론에서 잘못된 정보를 수정하는 데 도움을 주어 궁극적으로 디지털 미디어의 무결성과 신뢰성을 향상시키는 데 도움을 줍니다.
프로젝트 홈페이지: https://zhipeixu.github.io/projects/FakeShield/
GitHub 주소: https://github.com/zhipeixu/FakeShield
논문 주소: https://arxiv.org/pdf/2410.02761
FakeShield의 출현은 이미지 변조 감지 분야에 새로운 혁신을 가져왔습니다. 그것의 해석 가능성과 강력한 일반화 기능은 네트워크 보안을 유지하고 디지털의 신뢰성을 향상시키는 데 있어 향후 사용을 기대할 가치가 있습니다. 미디어가 더 큰 역할을 합니다. Downcodes의 편집자는 이 기술이 디지털 콘텐츠의 신뢰성과 신뢰성에 긍정적인 영향을 미칠 것이라고 믿습니다.