研究人员提出AI评估框架,能衡量视频生成模型在具身智能中的表现
研究人员提出AI评估框架,能衡量视频生成模型在具身智能中的表现
具身智能是当前AI领域的重要研究方向,涉及机器人、自动驾驶等需要与真实世界交互的技术。然而,现有的视频生成模型虽然能够生成高度真实的视觉内容,但在实际应用场景中的可操作性和物理一致性方面仍存在不足。为了解决这一问题,来自香港中文大学(深圳)、上海人工智能实验室、北京航空航天大学和香港大学的研究人员提出了一种全新的评估框架——WorldSimBench,用以衡量视频生成模型在具身智能任务中的实际应用能力。
WorldSimBench:双重评估框架
研究团队设计了显性感知评估(Explicit Perceptual Evaluation)和隐性操作评估(Implicit Manipulative Evaluation)这两个维度,旨在从不同角度考察视频生成模型的性能。
显性感知评估
显性感知评估主要依赖于人类反馈,评估视频的视觉质量和物理一致性。通过引入HF-Embodied数据集(一个用于研究和开发多模态人工智能系统的数据集),研究人员设计了一种偏好评估器,该评估器基于大量视频-文本对数据,通过人类打分的方式,衡量视频在视觉表现上的优劣。
图 | 显性感知评估概述(来源:arXiv)
在显性感知评估中:
- 上半部分是指令提示生成。研究人员使用来自互联网的大量视频字幕和预定义的体现评估维度。它们经过了GPT扩展并由人工验证,以创建相应的任务指令提示列表,用于数据生成和评估。
- 下半部分是HF-Embodied数据集生成。使用了大量带有字幕的互联网具身视频训练数据生成模型。然后根据相应的任务指令提示列表,将细粒度的人工反馈注释应用于视频上,涵盖多个体现维度。
隐性操作评估
隐性操作评估则关注视频生成模型在具身智能任务中的实际应用,即生成的视频是否能够驱动智能体完成任务。例如,在自动驾驶场景中,生成的视频是否能够反映真实的道路情况,帮助车辆做出正确的决策。
图 | 隐性操作评估概述(来源:arXiv)
在隐性操作评估中:
- 不同场景下的具身任务被分解为可执行的子任务。视频生成模型根据当前指令和实时观察生成相应的预测视频。使用预先训练的IDM或基于目标的策略,代理执行生成的动作序列。
- 在固定的时间步长之后,通过再次从视频生成模型中采样来刷新预测视频,并重复此过程。最后,通过模拟环境中的监视器获得各种具身任务的成功率。
实验验证与挑战
为了验证WorldSimBench评估框架的有效性,研究人员在MineRL、CARLA和CALVIN三个仿真环境中测试了模型的表现,对应了开放式具身环境、自动驾驶和机器人操控三种重要的智能任务。
实验结果表明,该评估器在判断视频的视觉质量和物理一致性方面,表现大多优于传统的大型语言模型(如GPT-4o)。
图 | 人类偏好评估器与GPT-4o的整体性能比较(来源:arXiv)
这些数据显示,使用基于两种评估方法的WorldSimBench框架,研究人员能够更精确地捕捉到模型在视觉生成中的细微差异,并且能够更好地反映人类对视频生成的实际期望。
尽管WorldSimBench框架在视频生成模型评估方面取得了进展,但其依然面临一些挑战。比如,HF-Embodied数据集是依赖于大规模人工标注数据,而且现有的评估场景集中在虚拟仿真环境中,如何扩展到更多真实世界的场景仍需要继续探索。
最后,基于整体的显性感知评估和隐性操作评估结果,该课题组得出结论:当前的视频生成模型仍然无法有效捕捉许多物理规则。作者在论文最后强调,“这表明在它们成为真正的世界模拟器之前,还需要进行很多改进。”