哈工大&南洋理工联手打造AI鉴伪黑科技!
哈工大&南洋理工联手打造AI鉴伪黑科技!
在人工智能快速发展的今天,DeepFake技术带来的虚假信息问题日益严峻。为了应对这一挑战,哈尔滨工业大学(深圳)和南洋理工大学联合研发了全球首个针对多模态DeepFake的检测定位模型——HAMMER,为防范虚假信息传播提供了新的解决方案。
AIGC时代下的DeepFake挑战
随着Stable Diffusion等视觉生成模型和ChatGPT等大型语言模型的快速发展,高保真度的虚假图像和文本可以被轻易伪造和传播。传统的DeepFake检测方法大多聚焦于单一模态,如图像或文本,无法有效应对跨模态的虚假信息传播。
HAMMER模型的创新突破
为了解决这一问题,研究团队提出了一个新的研究课题:检测并定位多模态媒体篡改任务(Detecting and Grounding Multi-Modal Media Manipulation,简称DGM4)。与传统的DeepFake检测不同,DGM4不仅需要判断输入的图像-文本对的真假,还要定位具体的篡改内容,包括图像篡改区域和文本篡改单词。
为了支持这一新任务,研究团队构建了全球首个DGM4数据集,包含23万张图像-文本对样本,涵盖了4种主要的篡改类型:
- 人脸替换篡改(Face Swap)
- 人脸属性篡改(Face Attribute)
- 文本替换篡改(Text Swap)
- 文本属性篡改(Text Attribute)
技术架构与核心优势
HAMMER模型采用了一种新颖的多模态层次化篡改推理框架。该模型基于双塔结构,分别处理图像和文本模态的特征提取,并通过以下两个层次实现细粒度的篡改检测:
浅层篡改推理:通过篡改感知的对比学习(Manipulation-Aware Contrastive Learning)来对齐图像和文本的语义特征。同时利用交叉注意力机制进行信息交互,并设计局部块注意力聚合机制(Local Patch Attentional Aggregation)来定位图像篡改区域。
深层篡改推理:利用多模态聚合器中的模态感知交叉注意力机制进一步融合语义特征。通过多模态序列标记和多模态多标签分类技术,实现文本篡改单词的定位和更细粒度的篡改类型检测。
实验效果与应用前景
实验结果表明,HAMMER模型在多模态和单模态检测方法中表现优异,能够准确检测并定位多模态媒体篡改。下图展示了模型的检测效果:
特别值得一提的是,HAMMER模型通过关注图像区域与文本语义的不一致性,实现了精准的篡改定位。下图展示了模型对篡改文本的注意力可视化结果:
这一技术突破不仅提升了多模态媒体篡改检测的准确性,更为防范虚假信息传播提供了强有力的工具。未来,HAMMER模型有望在社交媒体监测、新闻真实性验证等领域发挥重要作用,为构建更加安全可信的网络环境贡献力量。