全球首篇综述全面解析通用世界模型
全球首篇综述全面解析通用世界模型
世界模型是实现通用人工智能(AGI)的关键路径之一,通过预测未来的范式对数字世界和物理世界进行理解。近日,北京极佳视界科技有限公司(极佳科技)联合国内外多家单位推出了全球首篇通用世界模型综述,对世界模型在视频生成、自动驾驶、智能体等领域的研究和应用进行了详尽的分析和讨论。
世界模型通过对未来的预测来增进对世界的理解。如下图所示,世界模型的预测能力对于视频生成、自动驾驶以及智能体的发展至关重要,这三者代表了世界模型研究的主流应用方向。
一、视频生成领域
近年来,视频生成模型呈现出了多样化和创新化的发展趋势,不同的模型方法相继涌现并取得了令人瞩目的生成效果。以 GAN 为基础的模型(IRC-GAN、TGANs-C、TFGSN、StoryGAN、TiVGAN 等)主导了视频生成领域。之后,基于自回归建模(GODIVA、VideoGPT 等)、扩散建模(Imagen Video、SVD、CogVideo 等)和掩码建模(MAGVIT、VideoPoet、WorldDreamer 等)的模型开始出现,并取得了更好的生成效果。
Sora 是最近备受瞩目的视频生成模型,其技术方案依赖于扩散模型。Sora 主要包括三个部分:
- 压缩模型:该模型将原始视频在时间和空间上进行压缩,转换成隐空间的特征进行表示,并且有一个解码器可以将隐空间特征映射回原始视频;
- 基于 Transformer 的扩散模型:与 DiT(Scalable Diffusion Models with Transformers)方法类似,该模型在隐空间中对含有噪声的视觉特征不断进行降噪处理;
- 语言模型:使用大语言模型将用户的输入编码为详细的 promts,以此控制视频的生成。
二、自动驾驶领域
世界模型在自动驾驶场景下也存在巨大的应用价值。世界模型可以用来构建环境的动态表示。对未来的准确预测对于确保在各种工况下进行安全驾驶至关重要。因此,端到端自动驾驶方法(Iso-Dream、MILE、SEM2 等)通过最小化搜索空间并在 CARLA v1 模拟器上集成视觉动态的明确解耦来应对这些挑战。
TrafficBots 则是另一种基于世界模型的端到端驾驶方法,其侧重于预测给定情景中各个智能体的行为。通过考虑每个智能体的目的地,TrafficBots 利用条件变分自动编码器赋予各个智能体独特的特征,从 BEV(鸟瞰图)视角实现动作预测。
上述方法在 CARLA v1 上进行了实验,但面临 CARLA v2 中数据低效性的挑战。为了解决 CARLA v2 场景的复杂性。Think2Drive 提出一种基于模型的强化学习方法用于自动驾驶,鼓励规划器在学习的潜在空间中进行 “思考”。该方法通过利用低维状态空间和张量的并行计算显著提高了训练效率。
三、智能体、机器人领域
世界模型在智能体、机器人领域也有广泛的应用。World Models 是第一篇在强化学习领域引入世界模型概念的研究,其从智能体的经验中对世界的知识进行建模,并获得预测未来的能力。这项工作表明,即使是一个简单的循环神经网络模型也能够捕捉环境的动态信息,并支持智能体在该模型中学习和演化策略。这种学习范式被称为 “在想象中学习”。借助世界模型,试验和失败的成本可以大大降低。
RSSM(PlatNet、DreamerV1、DreamerV2、DreamerV3 等)占据主导地位,而 Transformer(TransDreamer、IRIS、Genie 等)、JEPA(JEPA、MC-JEPA、A-JEPA、V-JEPA 等)和扩散模型(RoboDreamer、UniSim)从 2022 年开始越来越受到关注。
四、挑战及未来发展方向
尽管近年来在通用世界模型以及特定领域应用如自动驾驶和机器人的研究急剧增加,但仍有许多挑战和机遇等待进一步探索。
挑战一:因果和反事实推理
作为一种预测模型,世界建模的本质在于其推理未来的能力。该模型应能够推断以前从未遇到过的决策的结果,而不仅仅是在已知数据分布内进行预测。正如下图所示,我们期望世界模型具有反事实推理的能力,通过理性的想象推断结果。这种能力在人类中本能存在,但对于当前的 AI 系统来说仍然是一个具有挑战性的任务。
挑战二:模拟物理定律
虽然 Sora 的视频生成能力令人印象深刻,但有许多研究者认为将其视为世界模型为时尚早,因为它并不完全遵守物理定律。现实世界要求严格遵守物理定律,如重力、光相互作用和流体动力学。虽然 Sora 在建模运动方面有所改进,包括行人和刚体运动,但它仍然在准确模拟流体和复杂的物理现象方面表现不佳。仅通过视频 - 文本对训练是不足以理解这些复杂性的,与物理渲染器产生的数据联合训练可能是一条潜在的解决路径。
挑战三:泛化能力
泛化能力是评估世界模型性能的关键之一,其强调的不仅是数据内插,更重要的是数据外推。例如,在自动驾驶中,真实的交通事故或异常的驾驶行为是罕见的事件。那么,学习得到的世界模型能否想象这些罕见的驾驶事件呢?这要求模型不仅要超越简单地记忆训练数据,而且要发展出对驾驶原理的深刻理解。通过从已知数据进行外推,并模拟各种潜在情况,世界模型可以更好地在现实世界中进行安全的导航。
挑战四:计算效率
视频生成的效率是限制其大规模应用的关键因素。为了保持视频生成的一致性,通常采用的时序一致性模块会导致生成时间大大增加。根据互联网上的新闻和分析,Sora 可能需要大约一个小时来生成一分钟的视频。尽管在图像生成领域出现了一系列基于蒸馏的方法,显著加速了生成速度,但在视频生成领域的相关研究仍然非常有限。
挑战五:性能评估
当前的世界模型的研究热点主要集中在生成式模型上,评估指标主要是生成质量,如 FID 和 FVD 等。此外,还有一些工作提出了更全面的评估基准,如 CLIPScore、T2VScore、VBench、EvalCrafter、PEEKABOO 等。然而,单独的度量数字不能全面反映世界模型的预测合理性。结合人类反馈可以使得评估变得更全面,但如何提升其效率和一致性是一个值得深入研究的方向。
论文地址:
https://arxiv.org/abs/2405.03520
项目地址:
https://github.com/GigaAI-research/General-World-Models-Survey