问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

研究发现:CLIP模型结合多模态信息可有效识别假图像

创作时间:
2025-01-21 22:57:34
作者:
@小白创作中心

研究发现:CLIP模型结合多模态信息可有效识别假图像

随着AI技术的发展,生成逼真假图像的能力越来越强,这给社会带来了潜在风险。本文介绍了一项使用CLIP模型进行假图像检测的研究,该研究创新性地将多模态信息(图像和语言)用于假图像检测,取得了显著的效果。

研究背景

近年来,随着对抗生成网络(GAN)和扩散模型等生成模型的显著发展,生成连人类都难以识别的虚假图像已成为可能。另一方面,这种高清晰度的虚假图像可能导致新闻报道的编造,从而带来潜在风险。例如,捏造政府官员的种族主义言论可能会引发国际问题。因此,建立一种检测虚假图像的通用方法是一个重要的社会问题。

假图像检测的技术难点在于其生成模型的多样性。这就意味着,面对生成模型日益多样化和复杂化,必须建立一种方法,以稳健和通用的方式来判别假图像。然而,由于人工智能的基础技术–深度学习是一种内插式学习,难以估计位于训练数据集分布之外的区域,这就给假图像的检测带来了技术上的困难。本研究试图通过 CLIP 这一图像和语言的多模态底层模型的丰富表现力来解决这一难题,是假图像检测领域的一个新趋势。

相关研究

CLIP 是图像和语言的多模态基础模型,在由图像及其相关文字说明组成的大型数据集上进行了预训练。CLIP 丰富的表现力在假图检测中也很有意义。事实上,CLIP 所获取的特征域空间的可视化显示,真实图像和伪造图像是完全分开的。


图 1:使用 t-SNE 的几种模型,真实(红色)和伪造(绿色)图像在特征空间中的分布可视化。

建议的方法:四种过渡学习策略

在本研究中,我们对以下四种将 CLIP 应用于假货检测的过渡学习策略进行了整理、比较和讨论。


图 2. 四种假货检测过渡学习策略。右下角显示了使用每种策略时需要训练的参数数量。

提示调整

我们采用了一种名为 "语境优化"(CoOOp)的方法,以优化输入 CLIP 语言编码器的提示语为原则进行训练。输入提示本身就是训练目标。

适应者

这种方法是在图像编码器中添加一个轻量级线性层,并只针对该层进行训练,而不改变 CLIP 中语言和图像编码器的参数。

微调

CLIP 的所有参数都是在假货检测任务的背景下重新训练的。训练参数的总数是最多的。

线性探测

这种方法只使用 CLIP 中包含的图像编码器,因此可以使用线性层对每幅图像的特征输出进行真假回归。

实验结果

对于每种过渡学习策略,模型都只使用 ProGAN 生成的数据集进行训练,并使用 21 种不同的基于 GAN 的数据集、扩散模型和商业图像生成器测试泛化性能。表 1 列出了所准备的 21 个不同数据集的详细信息。

表 1. 21 个用于验证的不同数据集。

推广性能

作者使用各种数据集测试了训练模型的泛化性能。表 2 显示了每个数据集的准确率比较。与之前的研究相比,结果表明本研究的方法具有优势,它整合了来自图像和语言的多模态信息。特别是,我们还发现提示调整是 CLIP 过渡学习的最佳策略。这些结果表明,利用图像和语言的综合多模态信息进行假冒检测是非常有用的,而仅利用图像数据进行假冒检测则是假冒检测的新趋势。

另一方面,可以确认的是,包括以前的研究在内,在 Face Swap 数据集上的表现不如在其他数据集上准确。换句话说,在生成整个图像的情况下(如 GAN 和扩散模型),准确率可能较高;但在编辑或替换部分图像的情况下(如 Face Swap),准确率可能较低,因此需要进一步讨论。


表 2:使用每个数据集的准确率比较。最佳性能以粗体显示。

训练数据集规模的影响

作者还研究了训练数据集的大小对性能的影响,假设在现实世界中只有数量有限的图像可用。表 3 总结了模型在不同大小的训练数据集情况下的性能。从这些结果中,作者得出结论:当改变训练数据集的大小时,模型的性能没有明显差异。这意味着,本研究中考虑的策略也适用于数据数量有限的实际使用案例。

表 3.训练数据集大小对性能的影响。

作者还进一步讨论和评估了该模型的性能,方法是在一个训练数据集上对该模型进行训练,该数据集只包括每个图像类别中的 32 幅图像(16 幅真实图像/16 幅虚假图像),总共只有 640 幅图像。这一验证也显示了作者所提方法的实用性,其结果是提示调整比其他策略更显著。


表 4. 少量训练模型的性能。

对图像后处理性能的影响

考虑到现实世界中在线共享图像时,对图像进行后期处理是很常见的。人们也普遍认识到,后期处理会对假货检测性能产生重大影响。在此背景下,作者还讨论了对图像进行某些后处理时检测性能的变化。 作为实际的后处理,本文考虑了(1)JPEG 压缩和(2)高斯滤波。图 3 总结了模型对每种变换的鲁棒性。有趣的是,线性探测在此次验证中表现得最为稳健。

图 3:图像后处理对性能的影响。

总结

本研究全面测试了基于 CLIP 的假图检测在各种假图数据集上的鲁棒性。它还比较和研究了将 CLIP 应用于假货检测的四种不同的过渡学习方法,即微调、线性探测、提示调整和适配器网络策略。实验结果表明,CLIP 对多模态图像和语言信息的整合在假货检测中也很有效。这预示着未来假货检测技术的新趋势,以及针对其他类型假货图像(如人脸互换)的假货检测技术的进一步发展。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号