ICLR 2025 | 多模态大模型能否胜任工业异常检测?MMAD基准揭示真相
ICLR 2025 | 多模态大模型能否胜任工业异常检测?MMAD基准揭示真相
随着深度学习技术的飞速发展,多模态大语言模型(MLLMs)在多个领域展现了卓越的能力。然而,这些模型在工业异常检测领域的表现如何?腾讯优图实验室与南方科技大学等高校合作,提出了首个针对工业异常检测的多模态大模型基准测试(MMAD),通过7大核心子任务的测评体系,全面评估了MLLMs的工业质检能力。研究发现,尽管现有模型在某些任务上表现出色,但整体表现仍低于人类专家水平,特别是在缺陷定位和异常判别方面。
传统检测方法为何在AI时代“水土不服”
传统AI质检模型存在以下痛点:
死记硬背的"书呆子":训练时见过10种划痕/物品 → 遇到第11种直接"懵圈";产线调整产品型号 → 必须重新收集数据训练;只能输出"合格/不合格" → 无法解释缺陷成因
信息传递的"聋哑症":现有系统存在严重的信息断层
而人类质检员的核心价值,正在于能完成"看到划痕→判断类型→推测工艺问题→指导产线调整"的完整认知链条。而MLLM的通用性和灵活性,能够通过语言和视觉的结合,提供多维度的信息支持,进而帮助模型进行更准确的异常检测与判断,弥补传统检测方法在面对新产品或复杂缺陷时的局限性。这使得MLLM有潜力为工业异常检测带来新的工作方式和思维方式。
MMAD基准:如何设计更贴近实际的测试?
为了全面评估MLLMs的工业质检能力,研究团队设计了覆盖7大核心子任务的测评体系:
- 异常判别(如“这张图是否有缺陷?”)
- 缺陷分类(如“缺陷类型是裂纹还是污渍?”)
- 缺陷定位(如“缺陷位于产品哪个区域?”)
- 缺陷描述(如“缺陷的颜色和形状如何?”)
- 缺陷分析(如“此缺陷会导致产品失效吗?”)
- 产品分类(如“这是哪个型号的工业零件?”)
此外,还采用了多种测试设置(如1-shot、1-shot+等),以模拟真实工业环境中的不同场景。
数据构建:当GPT-4V化身“虚拟质检专家”
研究团队设计了一套创新的数据生成流程:
- 视觉提示增强:用红色标注异常区域,并提供正常图像作为对比模板
- 语义知识注入:结合产品类别、缺陷位置描述等先验知识
- 多轮问答生成:通过GPT-4V生成覆盖7个子任务的多样化问题
- 人工核验过滤:26人团队耗时200+小时确保数据可靠性
最终构建的MMAD数据集包含8,366张工业图像,涵盖38类产品和244种缺陷类型,生成39,672道多选问题,形成了工业领域最全面的MLLM能力测评基准。
(左)MMAD数据集的数据信息,涵盖了7个关键子任务和38个代表性IAD类别。
(右)性能雷达图,表现最好的GPT-4o也在异常相关的问题上与人类有较大差距。
实验结果:GPT-4o仅得74.9%,人类专家优势显著
研究团队对包括GPT-4o、Gemini 1.5系列、LLaVA-NeXT等在内的十余个SOTA模型进行了系统评测,发现:
关键发现1:商业模型领先,但未达工业标准
GPT-4o以74.9%平均准确率位居榜首,但在缺陷定位任务中仅55.6%
开源模型InternVL2-76B以70.8%紧随其后,展现惊人潜力
专为工业设计的AnomalyGPT表现最差(36.5%),暴露过拟合问题
关键发现2:人类专家仍具压倒性优势
普通人类平均问答准确率78.7%,专家级达86.7%
在异常判别任务中,人类专家准确率95.2%,远超GPT-4o的68.63%
关键发现3:多图理解能力成短板
当提供检索后的正常图像作为参考模板时,商业模型Gemini 1.5 Flash准确率提升3.8%,多数开源模型反而出现性能下降,暴露多图对比能力不足
(左)随着模型尺度的增大,模型效果明显提升。
(右)当前模型无法利用更多的参考样本来进一步提升性能。
提升策略:如何让MLLMs更“懂”工业?
研究团队发现了两种零训练增强方案,可以帮助模型更好地适应工业场景:
- 检索增强生成(RAG)
- 原理:构建工业知识库,实时检索相关领域知识注入提示词
- 效果:模型在大部分任务中平均准确率提升5-6%,在瑕疵分类等任务中准确率最高提升20%
- 专家模型协作(Agent)
- 原理:将传统异常检测模型的输出(如热力图)可视化后输入MLLM
- 发现:使用真实标注作为专家输入时,缺陷定位准确率提升28%
- 局限:现有检测模型的误报会拖累MLLM表现
核心分析:MLLMs的“短板”与潜力
通过深入分析,研究团队发现了MLLMs难以胜任工业场景的主要原因:
- 缺乏质检知识:MLLMs在训练过程中很少接触到工业质检领域的专业知识,导致它们对特定产品的缺陷类型和异常模式理解不足。
- 细粒度图像理解能力有限:工业异常检测通常需要模型能够精准定位缺陷位置并感知其特征,而现有模型在这方面的能力较弱。
- 多图像比较能力不足:在实际生产线上,质检员经常需要通过对比多个图像来判断是否存在异常,但大多数MLLMs尚未经过相关训练。
但是,MLLMs也在几个方面中展现出潜力:
- 丰富的物品知识:MLLMs如GPT-4o具备广泛的物品和行业知识,能迅速识别复杂物体并判断是否符合标准,特别在物体分类任务中表现优越。
- 通过文本或视觉提示改进检测效果:通过适当的文本提示或参考图像,MLLMs能够提升异常检测和分类的准确性,尤其在使用检索增强生成(RAG)和模板图像对比时,模型表现更好。
测评样例1:人类能够迅速识别缺陷,而模型则关注组件数量,容易出现错觉,特别在缺陷较小或物体复杂时。
测评样例2:GPT-4o具有广泛的知识,能分析物体信息,而普通人可能无法识别某些专业细节,如BAT+和BAT-。
未来展望:工业AI质检的无限可能
尽管目前的MLLMs在工业异常检测中存在诸多不足,但研究团队的研究表明,它们仍然具有巨大的潜力。未来的研究可以从以下几个方向展开:
- 大规模工业数据集的构建:为模型提供更多高质量的工业数据,帮助其学习特定领域的知识。
- 多图像理解能力的提升:开发专门针对多图像输入的训练方法,增强模型的对比分析能力。
- 跨模态知识融合:探索如何将文本、图像和其他模态的信息更好地结合起来,提高模型的综合推理能力。
通过MMAD基准测试,研究团队首次系统地评估了多模态大模型在工业异常检测中的表现。虽然现有模型的表现尚不完美,但它们展现出的强大潜力令人期待。未来,随着更多研究的推进和技术的进步,相信多模态大模型将在工业场景中发挥更大的作用。
完整论文、数据和代码均已开源,详见
Openreview
Huggingface
GitHub
本文原文来自腾讯优图实验室与南方科技大学等高校合作的研究成果,已被ICLR 2025会议接收。