复旦团队提出创新多模态鉴伪方法,精准识别AI换脸诈骗
复旦团队提出创新多模态鉴伪方法,精准识别AI换脸诈骗
近年来,以AI换脸为代表的深度伪造技术被广泛应用于诈骗活动,给金融行业带来了巨大的安全风险。例如,不法分子通过AI换脸技术破解线上银行的人脸核验系统,绕过动作等活体检测,实施银行卡盗转盗刷;或者伪装成亲友,以紧急情况为由骗取转账。面对日益严峻的AI造假威胁,复旦大学联合中电金信及上海智能视觉计算协同创新中心团队提出了一种创新的多模态鉴伪方法,为网络安全提供了新的防护手段。
创新性的多模态鉴伪方法
研究团队提出的参照辅助的多模态鉴伪方法(Reference-assisted Multimodal Forgery Detection Network,R-MFDN)在多媒体领域顶级国际会议ACM MultiMedia 2024上获得认可,并将以口头报告形式展示(Oral接收率仅3.97%)。该方法的核心创新在于利用丰富的身份信息,通过挖掘跨模态不一致性来检测伪造内容。
R-MFDN方法由三个关键模块组成:多模态特征提取模块、特征信息融合模块和伪造鉴别模块。其中,多模态特征提取模块分别处理视频和音频数据,视频编码部分通过ResNet实现,对16帧视频数据进行特征提取和时序建模;音频编码部分则使用音频频谱图Transformer提取高级特征。特征信息融合模块通过自注意力和交叉注意力机制融合视觉和音频特征,最后输入伪造鉴别模块进行分类判断。
为了提升模型的泛化能力,研究团队设计了三个损失函数:分类交叉熵损失、跨模态对比学习损失和身份驱动的对比学习损失。这些损失函数共同作用,使模型能够学习到更鲁棒的身份敏感特征,从而在AI换脸拟声等身份伪造场景中具备更强的鉴别能力。
大规模数据集助力模型训练
针对多模态伪造视频鉴别领域缺乏大规模高质量数据集的问题,研究团队构建了IDForge数据集。该数据集包含54位名人讲话的249,138个视频片段,其中169,311个为伪造视频片段。数据集全面覆盖了文本、音频和视频的多模态伪造,使用了多种先进的生成技术,如大语言模型、TorToiSe、RVC、ROOP、SimSwap等,确保了伪造内容的多样性和真实性。
特别值得一提的是,IDForge还提供了额外的参考数据集,包含214,438个真实视频片段,作为每位说话人的身份先验信息。这种设计模拟了现实场景中人们通过记忆中的印象判断视频真实性的过程,为模型训练提供了更丰富的上下文信息。
出色的检测性能与广泛的应用前景
实验结果表明,R-MFDN方法在IDForge数据集上实现了92.90%的高准确率,显著优于现有方法。基于此项技术,中电金信已推出多模态深度伪造检测产品,该产品在金融身份认证、视频会议核身认证等场景中表现出色,双模态篡改检出率高达99.9%以上,单模态篡改检出率达到96%以上。
这一研究成果不仅为防范AI换脸视频诈骗提供了有力工具,也为构建更安全的数字环境奠定了基础。随着AI技术的不断发展,多模态鉴伪技术必将在维护网络安全、保护用户隐私和财产安全方面发挥越来越重要的作用。