问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

斯坦福李飞飞团队最新研究:多模态大模型展现空间感知能力

创作时间:
作者:
@小白创作中心

斯坦福李飞飞团队最新研究:多模态大模型展现空间感知能力

引用
CSDN
1.
https://blog.csdn.net/xx_nm98/article/details/144857177

斯坦福大学李飞飞教授团队最新研究揭示,多模态大语言模型(MLLMs)在视觉空间智能方面展现出令人瞩目的能力。通过提出VSI-Bench这一基于视频的视觉空间智能基准测试,研究团队发现MLLMs在空间感知和记忆方面的能力远超预期,尽管与人类相比仍存在差距。这一发现为未来AI在空间认知领域的应用开辟了新的可能性。

研究背景

人类拥有独特的视觉空间智能,能够通过连续的视觉观察记忆空间。然而,在百万规模的视频数据集上训练的多模态大语言模型(MLLMs)是否也能具备这种"空间思维"?斯坦福大学李飞飞教授团队的最新研究对此进行了深入探索。

研究贡献

为了在视觉空间领域提升这一智能,研究团队提出了VSI-Bench,这是一个基于视频的基准测试,包含近290个真实室内场景视频中的5000多个问答对。视频数据通过捕捉连续的时间输入,既与我们观察世界的方式相似,又能实现比静态图像更丰富的空间理解和推理。

VSI-Bench设计

为了从第一人称视角视频定量评估 MLLMs 的视觉空间智能,作者团队引入了 VSI-Bench。它由超过 5000 个问答对组成,这些问答对源自 288 个真实视频。
这些视频来自公共室内 3D 场景重建数据集 ScanNet、ScanNet++ 和 ARKitScenes 的验证集,涵盖住宅、办公、工厂等多种环境及多个地理区域。
利用这些现有数据集的对象级注释进行问题生成,并通过迭代审查确保了基准的高质量,减少了问题歧义及错误注释。
VSI-Bench 包含三种类型的八项任务:
a.配置任务(如物体计数、相对距离、相对方向、路线规划)测试模型对空间配置的理解;
b.测量估计任务(如物体大小、房间大小、绝对距离)对具身智能体有重要价值;
c.时空任务(如出现顺序)则测试模型对视频中空间的记忆。
基准构建
数据收集与统一:标准化各数据集为统一元信息结构,汇总 ScanNet、ScanNet++ 和 ARKitScenes 数据集,将其视频处理为统一格式(分辨率、帧率等),并统一注释结构为包含数据集、视频路径等属性的格式,精心筛选类别并进行类别重映射以确保一致性。
问答对生成:多数问答对通过元信息和问题模板自动注释(路线规划任务由人工注释),为每个任务精心设计问题模板并提供人工注释指南,根据任务特点生成不同类型的问答对(如选择题或数值题),并对问题选项和答案进行处理(如采样、避免歧义等)。
人工循环质量审查:尽管数据源于人工注释且有精心设计的生成方法,但仍存在错误。实施贯穿基准构建的人工验证协议,审查人员标记问题,追溯错误源并采取纠正措施(如移除问题数据、调整元信息或模板等),迭代更新基准直至满足质量标准。

VSI-Bench评估

1 评估设置
基准模型:全面评估 15 个支持视频的MLLMs,涵盖不同模型家族、参数规模和训练方法。包括专有模型 Gemini1.5 和 GPT - 4o,以及开源模型如 InternVL2、ViLA 等系列。所有评估在零样本设置下进行,使用模型默认提示,采用贪婪解码确保可重复性。
指标设计:根据问题答案类型(文本或数值),任务采用选择题答案(MCA)或数值答案(NA)格式。MCA 任务使用准确率(ACC),NA 任务引入平均相对准确率(MRA),通过计算模型预测与真实答案相对误差率来评估预测准确性,MRA 对数值预测与真实值的相似性提供更可靠和有区分度的测量。
基线水平:设定两个基线,Chance Level (Random) 为 MCA 任务随机选择准确率,Chance Level (Frequency) 为选择最频繁答案的准确率,以识别因答案长尾分布或不平衡多项选择可能导致的性能提升。
2 主要结果

人类水平表现:人类评估者在基准测试中平均准确率达 79%,在配置和时空任务上表现卓越(94% - 100%),表明人类的直观性。在测量任务上,人类与最佳 MLLM 的性能差距较小,意味着 MLLMs 在定量估计任务上可能有相对优势。
专用 MLLMs:领先的专用模型 Gemini1.5 Pro 虽与人类有显著差距,但结果具有竞争力,远超基线水平,在绝对距离和房间大小估计等任务上接近人类水平。考虑到人类在理解物理世界方面的经验,而 MLLMs 仅在二维数字数据上训练,这一表现值得关注。
开源 MLLMs:顶级开源模型如 LLaVA - NEXT - Video - 72B 和 LLaVA - OneVision - 72B 表现与闭源模型相当,仅落后领先的 Gemini1.5 Pro 4% - 5%。然而,多数开源模型(7/12)低于基线水平,表明其视觉空间智能存在显著局限。
盲评结果:对比 MLLMs 与 “Chance Level (frequency)” 和 “Vision Disabled”(盲测)结果,发现视频对 VSI - Bench 至关重要,盲测模型表现低于基线。MLLMs 在绝对距离估计、路线规划和相对方向任务上,无论是否启用视觉,都难以超越基线水平,凸显这些任务的难度。在物体大小任务上,“Vision Disabled” 模型因语言模型训练中的常识知识而优于基线。

多模态大语言模型如何在语言层面进行空间思考

为深入理解模型在视觉空间智能任务中的成败原因,剖析其能力构成,本章从语言层面探究MLLMs如何进行空间思考。
1 通过自解释进行探究
自解释是理解模型生成响应的常用方法,类似于传统模型解释技术(如 LIME 显著图),广泛应用于分析语言模型行为。研究以在 VSI-Bench 中表现最佳的 Gemini-1.5 Pro 为例,随机抽取 163 个错误答案,促使模型解释预测答案,再人工详细审查。
案例研究:成功与错误案例的自解释表明,MLLMs 在空间思考时,视频理解能力强,能准确描述时间戳,推理过程合理,还可能构建隐式世界模型,利用全局空间上下文和推理得出正确结论。但在错误案例中,也存在如自我中心 - 客体中心转换和关系推理等视觉空间能力缺陷,如在路线规划任务中,模型可能因遵循视频中的自我中心视角而非构建客体中心视角,导致方向判断错误。
错误分析:对 Gemini-1.5 Pro 在 VSI-Bench(tiny)上的错误进行量化分析,将错误归为四类:视觉感知错误(源于未识别物体或错误分类)、语言智能错误(由逻辑、数学推理或语言理解缺陷导致)、关系推理错误(包括空间关系推理错误,如距离、方向和大小判断)、自我中心 - 客体中心转换错误(因错误的客体中心空间布局或视角转换不当)。结果显示,约 71% 的错误源于空间推理,表明空间推理是 MLLM 在 VSI-Bench 上性能的主要瓶颈。
2 思维链方法在视觉空间任务中的局限性
提示技术虽能提升大模型在多种任务中的推理和问题解决能力,但在 VSI-Bench 中,研究发现三种常见的语言提示技术(Zero-Shot Chain-of-Thought、Self-Consistency w/ CoT、Tree-of-Thoughts)均导致性能下降。
Zero-Shot CoT 和 ToT 使平均性能降低约 4%,Self-Consistency 虽稍好但仍低于无提示基线 1.1%。这可能是因为这些技术在处理视觉空间任务时,对模型的空间推理能力要求较高,而当前模型在这方面存在不足。
在某些任务(如出现顺序和绝对距离估计)中,语言提示技术的单边改进可由其较高比例的语言智能错误解释。同时,Zero-Shot CoT 在一般视频理解基准 VideoMME 上能提升 1.6% 的性能,表明这些语言提示技术在语言推理和一般视觉任务中有效,但对空间推理有害。

多模态大语言模型如何在视觉层面进行空间思考

人类在进行空间推理时会下意识构建空间心理表征,受此启发探究MLLMs如何记忆空间,从视觉层面分析其空间思考方式。
1 通过认知地图进行探究
认知地图是记忆特定环境中物体的成熟框架,研究促使 MLLMs 使用认知地图表达对所见空间的内部表示。以 Gemini-1.5 Pro 为例,让其根据视频输入预测物体中心位置(在 10×10 网格内),并通过评估地图中物体间欧几里得距离来定量分析认知地图。
实验结果与分析:MLLMs 在认知地图中定位相邻物体的准确率达 64%,显示出较强的局部空间感知能力。然而,随着物体间距离增加,准确率显著下降,表明 MLLMs 从给定视频中形成的是一系列局部世界模型,而非统一的全局模型。这可能是因为从离散视频帧构建全局空间表示对 MLLMs 来说具有挑战性,尽管人类在这方面也可能面临困难,但可能更擅长构建准确的全局空间表示。

2 通过认知地图提升距离推理能力
鉴于 MLLMs 在记忆空间时的局部感知能力,以及心理意象对人类空间思考的重要性,研究探讨生成和使用认知地图能否提升 MLLMs 在 VSI-Bench 相对距离任务中的空间推理能力,即局部距离感知能否转化为更好的距离回忆和推理。
实验设置与结果:促使 Gemini-1.5 Pro 根据视频和问题生成认知地图,然后利用该地图回答问题。
结果表明,使用心理意象使 MLLM 的相对距离准确率提高了 10%,使用真实认知地图时准确率提高 20% - 32%,这强调了构建准确场景心理地图的重要性,尽管这只是解决问题的一部分,但表明构建心理空间世界模型或认知地图是提升 MLLMs 视觉空间推理能力的有价值的预训练任务或解决方案。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号