资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

ICLR 2025 | 多模态大模型能否胜任工业异常检测？MMAD基准揭示真相

创作时间:

作者:

@小白创作中心

ICLR 2025 | 多模态大模型能否胜任工业异常检测？MMAD基准揭示真相

引用

来源

https://cloud.tencent.com/developer/article/2496366

随着深度学习技术的飞速发展，多模态大语言模型（MLLMs）在多个领域展现了卓越的能力。然而，这些模型在工业异常检测领域的表现如何？腾讯优图实验室与南方科技大学等高校合作，提出了首个针对工业异常检测的多模态大模型基准测试（MMAD），通过7大核心子任务的测评体系，全面评估了MLLMs的工业质检能力。研究发现，尽管现有模型在某些任务上表现出色，但整体表现仍低于人类专家水平，特别是在缺陷定位和异常判别方面。

传统检测方法为何在AI时代“水土不服”

传统AI质检模型存在以下痛点：

死记硬背的"书呆子"：训练时见过10种划痕/物品 → 遇到第11种直接"懵圈"；产线调整产品型号 → 必须重新收集数据训练；只能输出"合格/不合格" → 无法解释缺陷成因
信息传递的"聋哑症"：现有系统存在严重的信息断层

而人类质检员的核心价值，正在于能完成"看到划痕→判断类型→推测工艺问题→指导产线调整"的完整认知链条。而MLLM的通用性和灵活性，能够通过语言和视觉的结合，提供多维度的信息支持，进而帮助模型进行更准确的异常检测与判断，弥补传统检测方法在面对新产品或复杂缺陷时的局限性。这使得MLLM有潜力为工业异常检测带来新的工作方式和思维方式。

MMAD基准：如何设计更贴近实际的测试？

为了全面评估MLLMs的工业质检能力，研究团队设计了覆盖7大核心子任务的测评体系：

异常判别（如“这张图是否有缺陷？”）
缺陷分类（如“缺陷类型是裂纹还是污渍？”）
缺陷定位（如“缺陷位于产品哪个区域？”）
缺陷描述（如“缺陷的颜色和形状如何？”）
缺陷分析（如“此缺陷会导致产品失效吗？”）
产品分类（如“这是哪个型号的工业零件？”）

此外，还采用了多种测试设置（如1-shot、1-shot+等），以模拟真实工业环境中的不同场景。

数据构建：当GPT-4V化身“虚拟质检专家”

研究团队设计了一套创新的数据生成流程：

视觉提示增强：用红色标注异常区域，并提供正常图像作为对比模板
语义知识注入：结合产品类别、缺陷位置描述等先验知识
多轮问答生成：通过GPT-4V生成覆盖7个子任务的多样化问题
人工核验过滤：26人团队耗时200+小时确保数据可靠性

最终构建的MMAD数据集包含8,366张工业图像，涵盖38类产品和244种缺陷类型，生成39,672道多选问题，形成了工业领域最全面的MLLM能力测评基准。

（左）MMAD数据集的数据信息，涵盖了7个关键子任务和38个代表性IAD类别。
（右）性能雷达图，表现最好的GPT-4o也在异常相关的问题上与人类有较大差距。

实验结果：GPT-4o仅得74.9%，人类专家优势显著

研究团队对包括GPT-4o、Gemini 1.5系列、LLaVA-NeXT等在内的十余个SOTA模型进行了系统评测，发现：

关键发现1：商业模型领先，但未达工业标准
GPT-4o以74.9%平均准确率位居榜首，但在缺陷定位任务中仅55.6%
开源模型InternVL2-76B以70.8%紧随其后，展现惊人潜力
专为工业设计的AnomalyGPT表现最差（36.5%），暴露过拟合问题
关键发现2：人类专家仍具压倒性优势
普通人类平均问答准确率78.7%，专家级达86.7%
在异常判别任务中，人类专家准确率95.2%，远超GPT-4o的68.63%
关键发现3：多图理解能力成短板
当提供检索后的正常图像作为参考模板时，商业模型Gemini 1.5 Flash准确率提升3.8%，多数开源模型反而出现性能下降，暴露多图对比能力不足

（左）随着模型尺度的增大，模型效果明显提升。
（右）当前模型无法利用更多的参考样本来进一步提升性能。

提升策略：如何让MLLMs更“懂”工业？

研究团队发现了两种零训练增强方案，可以帮助模型更好地适应工业场景：

检索增强生成（RAG）

原理：构建工业知识库，实时检索相关领域知识注入提示词
效果：模型在大部分任务中平均准确率提升5-6%，在瑕疵分类等任务中准确率最高提升20%

专家模型协作(Agent)

原理：将传统异常检测模型的输出（如热力图）可视化后输入MLLM
发现：使用真实标注作为专家输入时，缺陷定位准确率提升28%
局限：现有检测模型的误报会拖累MLLM表现

核心分析：MLLMs的“短板”与潜力

通过深入分析，研究团队发现了MLLMs难以胜任工业场景的主要原因：

缺乏质检知识：MLLMs在训练过程中很少接触到工业质检领域的专业知识，导致它们对特定产品的缺陷类型和异常模式理解不足。
细粒度图像理解能力有限：工业异常检测通常需要模型能够精准定位缺陷位置并感知其特征，而现有模型在这方面的能力较弱。
多图像比较能力不足：在实际生产线上，质检员经常需要通过对比多个图像来判断是否存在异常，但大多数MLLMs尚未经过相关训练。

但是，MLLMs也在几个方面中展现出潜力：

丰富的物品知识：MLLMs如GPT-4o具备广泛的物品和行业知识，能迅速识别复杂物体并判断是否符合标准，特别在物体分类任务中表现优越。
通过文本或视觉提示改进检测效果：通过适当的文本提示或参考图像，MLLMs能够提升异常检测和分类的准确性，尤其在使用检索增强生成（RAG）和模板图像对比时，模型表现更好。

测评样例1：人类能够迅速识别缺陷，而模型则关注组件数量，容易出现错觉，特别在缺陷较小或物体复杂时。