多模态大语言模型 vs 人类:视觉认知能力的较量
多模态大语言模型 vs 人类:视觉认知能力的较量
随着多模态大语言模型(MLLMs)的快速发展,人们对其视觉认知能力产生了浓厚的兴趣。近期,一篇发表在《Nature Machine Intelligence》的研究论文通过一系列实验,对比了MLLMs与人类在直觉物理学、因果推理和直觉心理学等领域的表现。研究发现,尽管MLLMs在视觉数据处理上展现出一定的能力,但在复杂认知任务中仍存在显著不足。
实验方法与发现
研究采用了一系列经典认知科学任务来评估多模态语言模型的认知能力。
直觉物理学
在直觉物理学方面,研究使用了来自Lerer等人的木块塔实验,要求模型判断塔的稳定性,以评判模型是否掌握了复杂的物理相互作用。结果显示,GPT-4V和Claude-3在稳定性判断上表现略高于随机水平,但与人类的65.6%准确率相比仍有差距。
因果推理
在因果推理方面,研究采用了Jenga积木实验和Michotte发射范式,要求模型判断积木的因果关系,以考验大模型对因果关系的理解。结果表明,尽管模型在某些任务中表现略优于随机水平,但和人类的因果判断一致性上仍显不足。
直觉心理学
在直觉心理方面,研究设计了宇航员任务和帮助或阻碍任务,要求模型推断场景中角色的意图和行为结果,评估其对他人偏好的直觉理解能力。结果显示,所有模型在任务复杂性递增时的表现均不及人类。此外,GPT-4V在个别任务中表现出与人类判断的微弱相关性,但整体上仍未达到人类水平。
讨论与结论
尽管多模态语言模型在视觉数据处理上展现出一定的能力,但在和人类直觉认知对比下仍有显著不足。研究指出,模型在基础视觉处理上的局限可能是导致其认知表现不佳的原因之一,以及实验中使用的静态图像可能限制了任务的复杂性,未来可以考虑使用更具动态性和复杂性的刺激材料。研究强调了需要更为健全的因果关系、物理动态和社会认知机制,以提升多模态语言模型的表现。未来的研究可以探索通过调整模型规模或微调训练过程来改善模型的认知能力。
论文题目:Visual cognition in multimodal large language models
论文地址:https://www.nature.com/articles/s42256-024-00963-y
期刊名称:Nature Machine Intelligence