WHALE来了,南大周志华团队做出更强泛化的世界模型
WHALE来了,南大周志华团队做出更强泛化的世界模型
在人工智能领域,世界模型是实现具身智能的关键技术之一。近日,南京大学、南栖仙策等机构的研究者提出了一种名为WHALE(World models with beHavior-conditioning and retrAcing-rollout LEarning)的框架,该框架通过两种关键技术——行为条件和回溯回放,显著提升了世界模型的泛化能力和不确定性估计能力。
世界模型的重要性
世界模型受人类智能启发,能够抽象化现实世界的动态,并提供"如果……会怎样"的预测能力。具身智能体可以通过与世界模型交互,生成模拟数据,用于反事实预测、离线策略评估和离线强化学习等任务。为了支持分布外(OOD)区域的想象并提供可靠的不确定性估计,世界模型需要具备强大的泛化能力。
WHALE框架的核心技术
WHALE框架由两种关键技术组成:
行为条件技术:研究者发现,策略分布差异是泛化误差的主要来源。因此,他们引入了行为条件技术,使模型能够主动适应不同的行为,减轻分布偏移引起的外推误差。
回溯回放技术:这是一种简单而有效的不确定性估计方法,通过引入回溯动作来更准确地估计基于Transformer的世界模型的不确定性。与基于集成的方法相比,回溯回放不需要在训练阶段进行任何修改,计算成本更低。
Whale-ST模型
研究者提出了Whale-ST,这是一个基于时空Transformer的可扩展具身世界模型,旨在为现实世界的视觉控制任务提供忠实的长远想象。实验结果表明,Whale-ST在价值估计准确率和视频生成保真度方面均优于现有方法。
Whale-X模型
Whale-X是一个具有4.14亿参数的世界模型,在Open X-Embodiment数据集中的97万个现实世界演示上进行了训练。实验表明,Whale-X在视觉、动作和任务视角中展示了强大的OOD通用性,并且在预训练和微调阶段都表现出了令人印象深刻的可扩展性。
实验结果
研究团队在模拟任务和现实世界任务上进行了广泛的实验,主要回答了以下几个问题:
模拟任务中的Whale-ST:在Meta-World基准测试上,Whale-ST在所有三个指标上都表现出色,特别是在256×256分辨率下,表现进一步提升。
不确定性估计:回溯回放方法在模型误差预测和离线强化学习两个角度的评估中均优于其他基线方法。
Whale-X在真实世界中的表现:在ARX5机器人上的实验表明,Whale-X在视觉、运动和任务泛化能力方面均表现出色。
扩展性:无论是增加预训练数据还是增加模型参数,Whale-X都能降低训练损失,展现出强大的扩展性。
可视化结果
图1展示了在Meta-World、Open X-Embodiment和研究团队设计的真实任务上的定性评估结果。Whale-ST和Whale-X能够生成高保真度的视频轨迹,尤其是在长时间跨度的轨迹生成过程中,保持了视频的质量和一致性。
图8展示了Whale-X在控制性和泛化性方面的强大能力。给定一个未见过的动作序列,Whale-X能够生成与人类理解相符的视频,学习动作与机器人手臂移动之间的因果联系。
总结
WHALE框架通过行为条件和回溯回放技术,显著提升了世界模型的泛化能力和不确定性估计能力。Whale-ST和Whale-X模型在模拟和真实世界任务中均表现出色,为具身智能的发展提供了新的思路和技术支持。
本文原文来自arXiv:https://arxiv.org/abs/2411.05619