问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

北大黑科技:用AI揪出假图

创作时间:
作者:
@小白创作中心

北大黑科技:用AI揪出假图

引用
36氪
11
来源
1.
https://36kr.com/p/3007682234689028
2.
https://www.aibase.com/zh/news/12730
3.
https://m.163.com/dy/article/JF9NASSA0511ABV6.html
4.
https://m.thepaper.cn/newsDetail_forward_29136504
5.
https://blog.csdn.net/moxibingdao/article/details/142871860
6.
https://baijiahao.baidu.com/s?id=1815478942237992354
7.
https://m.blog.csdn.net/weixin_41446370/article/details/143260037
8.
https://ai-bot.cn/fakeshield/
9.
https://www.52ai.com/3826.html
10.
http://www.pokemonpets.com/Pokemon-Moves
11.
https://www.gsmchoice.com/zh-cn/compare/redmi-note8-vs-hammer-construction/

近日,北京大学研究团队提出了一种新型多模态框架FakeShield,能够精准检测图像伪造、定位篡改区域,并提供详细的篡改解释。这一突破性技术不仅解决了传统图像篡改检测方法的黑箱问题,还显著提升了模型的泛化能力,为打击虚假信息提供了有力工具。

01

研究背景与挑战

随着生成式人工智能(AIGC)技术的迅猛发展,图像编辑与合成技术变得愈加成熟与普及。用户能够通过Photoshop、DeepFake、AIGC等工具对图像进行高质量编辑,且往往不留任何痕迹。在此背景下,如何准确检测并定位篡改区域,成为了学术界与工业界的关注重点。

尽管现有的图像篡改检测与定位(IFDL)算法在网络结构和训练策略上取得了一定进展,但仍存在几个主要问题:

  1. 大多数方法采用黑箱模型,仅输出真实性概率,缺乏详细的检测解释,导致用户对结果的信任度降低。
  2. 现有算法通常针对特定篡改技术,缺乏应对多样化篡改手段的能力,降低了实用性。
02

FakeShield技术创新

为了解决这些问题,北京大学与华南理工大学的研究团队提出了一种全新的任务:可解释的图像伪造检测与定位(e-IFDL),并设计了FakeShield框架。该框架的核心创新包括:

多模态篡改描述数据集(MMTD-Set)

研究团队根据篡改方法,将篡改图片分为Photoshop、DeepFake、AIGC-Editing三个数据域。基于现有IFDL数据集,利用GPT-4o生成篡改图像的分析与描述,构建「图像-掩膜-描述」三元组。这种设计确保模型能够关注不同类型的篡改特征。

在构建MMTD-Set的过程中,prompt设计是关键环节。prompt需要确保GPT-4o能准确生成与篡改图像相关的高质量描述。具体来说,prompt设计围绕两个主要方面展开:

  • 篡改区域的定位:包括绝对位置(如「图像的左上角」)和相对位置(如「在桌面上方」)的描述。
  • 可见细节的捕捉:针对不同篡改类型,关注像素伪影、面部细节、文字生成等视觉异常。

域标签引导的可解释伪造检测模块(DTE-FDM)

DTE-FDM模块负责图像伪造检测与检测结果分析,通过生成数据域标签(domain tag)来缓解不同伪造类型数据之间的数据域冲突。这些标签引导多模态大语言模型(LLM)聚焦于各类型篡改的特征,实现针对性检测与解释。

在检测过程中,输入图像I_ori通过数据域标签生成器G_dt分配特定标签T_tag,表明该图像的伪造类型。接着,图像经过编码器F_enc和线性投影层F_proj转化为特征向量T_img。这些图像特征与指令文本T_ins一并输入LLM,生成检测结果O_det,包括是否篡改、具体的篡改区域描述以及解释性分析。

多模态伪造定位模块(MFLM)

MFLM模块使用DTE-FDM输出的篡改区域描述作为视觉分割模型的Prompt,引导其精确定位篡改区域。这种设计实现了检测与定位的解耦,提高了模型的灵活性和准确性。

03

实际应用效果

FakeShield框架在多个维度展现了其优越性能:

  1. 可解释性:不仅能判断图像是否被篡改,还能提供详细的篡改区域描述和分析依据,包括光照一致性、边缘伪影、分辨率差异等。

  2. 泛化能力:在单一模型中检测多种篡改类型,缓解了数据域冲突问题。实验表明,FakeShield能够有效应对Photoshop、DeepFake、AIGC编辑等多种篡改技术。

  3. 实用性:该技术在多个领域具有重要应用前景,如法律诉讼中的证据收集、媒体内容审核、虚假新闻核查等。

04

未来展望

FakeShield框架的提出标志着图像篡改检测领域取得了重大进展。其结合多模态大语言模型的创新方法,不仅提高了检测的准确性和解释性,还显著增强了模型的适应性和实用性。未来,这项技术将在维护数字内容真实性、促进可信网络环境建设方面发挥重要作用。

项目主页:https://zhipeixu.github.io/projects/FakeShield/
GitHub地址:https://github.com/zhipeixu/FakeShield
论文地址:https://arxiv.org/pdf/2410.02761

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号