问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

Dynalang:用语言建模预测未来,实现智能体与环境的深度交互

创作时间:
作者:
@小白创作中心

Dynalang:用语言建模预测未来,实现智能体与环境的深度交互

引用
CSDN
1.
https://blog.csdn.net/yorkhunter/article/details/140522809

Dynalang是伯克利分校提出的一种新型智能体,它能够通过语言建模来预测未来的文本和图像表示,并根据这些预测采取行动。与传统的智能体不同,Dynalang不仅能够理解语言指令,还能够预测未来的语言、视频和奖励,从而获得更丰富的语言理解能力。

2023年8月,来自伯克利分校的研究团队发表了一篇题为“Learning to Model the World with Language”的论文,提出了Dynalang这一创新性智能体。研究团队认为,为了实现与人类的有效互动并采取行动,智能体需要理解人类使用的语言,并将其与视觉世界联系起来。虽然当前的智能体能够从任务奖励中执行简单的语言指令,但Dynalang的目标是构建一个能够利用各种语言来传达一般知识、描述世界状态、提供交互式反馈等的智能体。

Dynalang的核心思想是,语言可以帮助智能体预测未来:将观察到什么,世界将如何表现,以及哪些情况将得到奖励。这种观点将语言理解与未来预测统一起来,作为一个强大的自监督学习目标。Dynalang通过学习多模态世界模型来预测未来的文本和图像表示,并学习从想象的模型展开中采取行动。

与仅使用语言来预测动作的传统智能体不同,Dynalang用过去的语言来预测未来的语言、视频和奖励,从而获得了丰富的语言理解。除了从环境中在线交互中学习外,Dynalang还可以在文本、视频或两者的数据集上进行预训练,无需操作或奖励。

Dynalang的工作原理

Dynalang通过将多种模态编码为压缩的表征,然后预测给定动作的未来表示顺序,学习在视觉环境中使用不同类型的语言。研究团队在基于模型的强化学习算法DreamerV3的基础上构建了Dynalang的算法,并将其扩展到处理和实际生成语言。

在世界模型学习期间,模型将图像帧和文本的观察压缩为潜表示。训练模型预测下一个表示并从表示中重建观测值。在策略学习期间,从世界模型中对设想的扩展进行抽样,并对策略进行训练,最大化想象的奖励。

Dynalang的应用场景

Dynalang在多个环境中进行了测试,包括HomeGrid、Messenger、Habitat和LangRoom。其中,HomeGrid是一个具有挑战性的视觉网格世界,带说明和各种提示;Messenger是一个基准测试,具有符号输入和需要多跳推理的人工编写游戏手册;Habitat模拟逼真的3D房屋,进行视觉语言导航;LangRoom是一个简单的视觉网格世界,具有部分可观察性。

技术细节

世界模型学习智能体接收的所有感觉模态表征,然后预测给定动作这些潜表征的顺序。预测未来表征不仅为视觉体验中的落地实施语言提供了丰富的学习信号,而且还允许从想象的序列中进行规划和策略优化。

在训练期间,生成长度T=15的想象扩展,去训练策略。从重播缓冲区采样的状态开始,对来自演员网络的动作和来自世界模型的观察进行采样。世界模型还预测奖励和情节延续标志旗,从中计算折扣λ-回报。评论家网络被训练来回归这些回报估计,其还由演员网络通过REINFORCE训练来最大化。在环境交互期间,从演员那里采样动作,而无需规划。

总结

Dynalang通过将语言理解与未来预测统一起来,提供了一个强大的自监督学习目标。它不仅能够理解语言指令,还能够预测未来的语言、视频和奖励,从而获得更丰富的语言理解能力。这种创新性的智能体架构为未来AI的发展提供了新的思路和方向。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号