问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

CVPR 2024 | 从第一人称视角理解世界,多模态模型离我们还有多远?

创作时间:
作者:
@小白创作中心

CVPR 2024 | 从第一人称视角理解世界,多模态模型离我们还有多远?

引用
CSDN
1.
https://blog.csdn.net/hanseywho/article/details/136612366

近年来,随着视觉语言大模型的不断发展,评测其优势与不足已成为重要研究课题。然而,现有评测数据多以物体为中心或第三人称视角,忽视了模型在第一人称视角下的能力。针对这一问题,清华大学提出了EgoThink数据集,专门用于评估视觉语言大模型从第一人称视角理解世界的能力。

研究背景

近年来随着视觉语言大模型的不断发展,评测视觉语言大模型的优势与不足逐渐成为了非常重要的研究问题。目前已有的评测数据都是以物体为中心或者第三人称视角,对于模型在第一人称视角下的能力评测则有显著欠缺。第一人称视角是人与智能体观察和理解世界的方式,在与真实世界交互的过程中,人类会根据周边环境从很多维度进行思考,如图1所示。因此,该工作更关心视觉语言大模型作为智能体或机器人大脑的潜力,即包括从第一视角理解周围场景并进行思考的能力。


图1:EgoThink评测能力类别。

数据集构建

该论文提出了一个针对视觉语言大模型在第一人称视角下思考能力的较为完整的视觉问答评测数据集——EgoThink。该数据集共包含700条问答问题,总结了6个核心能力作为评测的维度,并进一步细分为12个维度,如图2所示。

EgoThink来源于Ego4D第一人称视频数据集的采样图片,为保证数据多样性,每条视频最多只采样出两张图片。数据集图片同样经过了严格的筛选,只留下了拥有较好质量和能明显体现第一人称视角思考的图片。该数据集采用人工标注,每种维度都包含至少50条详细标注的问答问题,并且数据来源于多个第一视角的不同现实场景。为确保数据标注质量,每组图片及标注数据都经过多轮人工检查,以保证图片清晰度和标注准确性。

图2:EgoThink任务类别与具体维度以及数据实例。

模型评测

评测方式

该论文选取GPT-4作为自动评估模型,用来评估模型输出与人工标注答案的相似度,并根据相似度进行打分,判断模型输出是否准确可靠。论文实验结果显示GPT-4模型与人工评估结果的Pearson相关系数为0.68,证实了GPT-4评估的可靠性。

评测结果

该论文选用了视觉语言大模型领域十八个有代表性的模型进行评测,较为全面地评测了视觉语言大模型领域第一人称视角下的思考能力。评测结果如下图所示:

表1:评测实验结果。

综上所述,尽管目前视觉语言大模型如今在多个评测榜单上达到较好的表现,但其在第一人称视角下的思考能力仍有很大的进步空间。实验结果表明,视觉语言大模型在第一人称视角的任务上表现较差,大多数任务的平均评测分数都仅在60分左右;只在预测和计划两个领域表现较好。此外,在所有模型中,GPT-4V目前仍然是在绝大多数场景下表现更好的模型,但仍离实际应用有较大的距离。

总结

该工作为考察多模态模型作为智能体或机器人大脑的潜力,提出了以第一人称为视角的视觉问答基准数据集——EgoThink。该数据集把模型的第一人称视角下的思考能力从六个维度进行拆解,并对每个能力维度进行了详尽的评测。评测结果显示,当前阶段的视觉语言大模型,包括GPT-4V,从第一人称视角进行思考的整体能力上还远未达到人类水平。

因此,随着基础模型的能力不断地提升,如何让多模态模型能像人类作为本体一样,从第三人称视角的观察到从第一人称视角去主动感知、理解、思考,从静态图片到动态环境探索,从简单评测基准到复杂真实任务,是迈向下一阶段通用人工智能的重要研究问题。

论文信息:

本文原文来自CSDN

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号