前沿导读 | 基于大模型智能体的人类行为仿真与生成
前沿导读 | 基于大模型智能体的人类行为仿真与生成
大语言模型(LLM)的发展为人类行为的生成与仿真带来了新的可能性。通过角色扮演能力,只需要在提示词中对目标角色进行语言描述,就可以使得智能体产生与描述相一致的行为。这不仅可以使得智能体产生定制化的行为,还可以增强智能体运用专业知识的能力,提升回答质量。此外,强大的类人推理能力与情境学习能力,使得运用大语言模型进行人类行为的生成与仿真变得更加高效和简便。
概念和研究背景
人类行为是人类个体或群体在其生活中对内部和外部刺激做出的反应。可以大致将其划分为六个大类:
- 生理行为:指基于生理机制的自然反应,例如进食、睡眠、呼吸等。通常由身体内部的生理过程和需求驱动。此外,生理行为还包括对外界环境的本能反应,如对疼痛或寒冷的反应。
- 物理行为:指的是个体与物理世界相互作用的方式,涉及主观的身体运动或物理力量的应用。比如,走路、搬运物品、运动等。
- 心理行为:指个体在思维、情感和认知活动中的表现,涉及感知、记忆、思考、决策等过程。例如,人在做出选择时的思维活动,或者在处理压力时的情绪反应。
- 社会行为:是指个体在社会环境中与他人互动的方式,反映了人与人之间的关系和社会规范的影响。社交、合作、竞争等都属于其体现。
- 情感行为:指个体在情绪驱动下的行为反应,比如人在愤怒时的冲动行为,或者在高兴时的表达方式。
- 道德行为:是指个体基于道德准则或伦理标准所做出的决定,反映人的价值观和道德观,与社会期望、文化传统和法律规范密切相关。
人类行为的成因复杂多样,学术界为解析影响行为的因素提出了诸多理论。其中,社会心理学家Icek Ajzen提出的“计划行为理论”具有较大影响力。该理论认为,行为是由意图所驱动,而意图的形成受到三个关键因素的影响:态度偏好、主观规范和可行性感知。所谓可行性感知,指的是个体基于环境条件和自身状况,对行为预期效果进行的评估。这一理论为理解人类行为提供了重要的框架。
图1 计划行为理论示意图
从微观个体偏好,到宏观群体风向,人类行为数据蕴含着大量社会运行的规律,对规划、推荐等领域具有重要意义。然而,由于严重的隐私问题,真实行为数据难以获得,使用模型来生成行为数据便成为研究热点。受限于模型建模能力,传统生成模型大多只能生成可量化的行为数据,如时空行为数据,移动轨迹就是典型代表。
近年来,大语言模型的发展为行为生成带来了新的可能性。角色扮演能力是关键。只需要在prompts中对目标角色进行语言描述,就可以使得智能体产生与描述相一致的行为。无论是画像特征、社会关系,还是语言风格、历史记忆,都可以灵活指定。这不仅可以使得智能体产生定制化的行为,还可以增强智能体运用专业知识的能力,提升回答质量。此外,强大的类人推理能力与情境学习能力,使得运用大语言模型进行人类行为的生成与仿真变得更加高效和简便。
图2 CharacterGLM角色扮演孙悟空
相关研究梳理
这里,我们想首先明晰行为生成与行为仿真的区别。从问题设定来说,生成是“无中生有”,而仿真是本来就有,模拟出来;从结果评估来说,仿真有标准答案,更具确定性,而生成难有对和错的说法;从问题对象来说,生成更关注个体特性,仿真则更关注集体趋势和系统行为。接下来,我们将分别从生成和仿真两个角度,介绍已有的工作。
大模型for人类行为生成
这部分我们将介绍4篇关于行为生成的工作,依据生成的具体场景和是否与物理场景接轨,我们将这4篇整理如下:
旅行日志生成 旅行日志依然属于移动数据的范畴。但除了时间、距离等空间信息之外,这篇工作还生成了出行的交通方式、意图。在模型的设计中,出行模式是一个核心要素。所谓出行模式,是指出行时间 / 频率 / 出行工具 / 意图 / 常用出行目的地等偏好信息。那么如何提取出行模式呢?文中按照职业、性别、年龄、收入水平、教育程度,将所有人群划分成子群体,对每个子群体,将标注过的轨迹数据放到prompts里,通过引导来提取典型模式。在生成时,根据画像匹配一个最相似的子群体,增强生成的真实性。
图4 旅行日志生成框架示意图
轨迹生成 整体的生成框架分为三个部分:①受行为科学启发的智能体工作流:启发于“计划行为理论”,让大模型智能体逐步推理,递推生成意图序列;②将抽象意图映射到真实城市空间的物理模型:使用引力模型,基于少量的移动轨迹,将抽象的移动意图映射为具体的POI位置,从而生成完整的轨迹;③面向低成本高效推理的知识迁移方法:由于大模型推理成本高昂,微调本地小模型,在不损失推理性能的前提下,高效推理得到大量意图序列。
图5 轨迹生成框架示意图
家居活动将大语言模型和智能家居模拟器结合,智能体首先推理得到较高层次的活动意图。然后模拟器会提供相关环境信息(屋内物品的摆放位置、设备的相对位置等),智能体再根据这些信息推理得到更细粒度的行为活动。
图6 家居活动生成框架示意图
疫情行为指定人物画像(年龄、性格特点、记忆),描述当前周围环境的疫情趋势,让智能体进行行为决策,主要关注是否外出、是否隔离、是否治疗等问题。
图7 疫情行为生成例子
大模型for人类行为仿真
这部分我们将介绍7篇关于行为仿真的工作,我们将仿真的具体场景划分为2个大类,整理如下。可以看到,当前对于行为仿真主要还是对社交网络、多智能体协作等场景关注更多。
图8 仿真7篇工作梳理
线上社区行为仿真 面向线上社区设计的需求,设计师制定一些社区规则(社区信息、建立目标、禁止行为),智能体依据行为进行发言和交流。设计师基于智能体的行为检验规则的效果,并进一步调整规则设置。
图 9 社区行为仿真框架示意图
信息传播行为仿真 关注社交平台上热点话题的信息传播行为。此工作对社交平台的信息传播机制做了细致的建模,个人从周围的社交环境中获取信息,做出行为反应,再反过来更新环境信息。实验仿真出来的信息传播速率以及送达率,与真实规律十分相符。
图10 仿真出来的信息传播规律与真实相符
表决行为仿真 使用“参与式预算”(社区成员直接参与决定如何分配公共预算。居民可以提出项目建议、讨论和优先选择他们认为重要的项目,并最终投票决定资金的具体用途。)这一经典的经济问题,让智能体模仿人类进行表决。结果表明,智能体与人类在表决行为上具有显著的区别。思考时的理性程度是一个重要原因。
图11 智能体表决框架
信任行为仿真 在六个信任游戏上对智能体的信任行为进行了仿真。在智能体的建模中应用了BDI模型(Belief–desire–intention software model)来模拟人类的推理与决策。仿真结果发现,智能体可以表现出信任行为,且对画像信息较为敏感。
图12 信任实验
合作行为仿真 斯坦福AI小镇的仿真结果之一。发现智能体可以自发地组织活动,并邀请别的智能体加入,合作举办活动。
图13 斯坦福小镇中智能体们合作举办派对
招聘行为仿真 招聘场景仿真。给每个应聘的智能体都配备了一个技能池(skill pool),从而实用技能来解决不同的问题,竞争相应的岗位。仿真结果发现智能体可以从环境中检索有效的招聘信息并形成有效的招聘行为。然而,随着招聘会的复杂性和参与者数量的增加,仿真会变得越发混乱。
图14 招聘场景
策略行为仿真 仿真场景为The ultimatum game最后通牒游戏。参与人分为提议者和回应者,提议者拿到一笔钱,决定如何将这笔钱分配给回应者,并提出一个具体的分配方案。回应者可以选择接受或拒绝提议者的分配方案,如果拒绝则两人均分毫不获。仿真结果发现,智能体的行为与人类的行为达到了87.5%的相似率。
未来展望
上述研究展现了大模型在人类行为生成与仿真领域的诸多可能性,我们相信在该领域有更多的研究方向等待挖掘与探索。在这里,我们仅提出2个小的角度。
- 结合更真实的物理环境:从抽象移动意图到具体的轨迹位置就是一个很好的例子。参与式规划也是一个很有潜力的方向,结合人在室内空间的感受来生成活动,为规划提供建议。一些CV类的工作可供参考,比如谢赛宁团队提出的:V-IRL: Grounding Virtual Intelligence in Real Life。
- 探索新的行为种类和仿真场景:社会学、经济学、伦理学中有大量的经典问题,蕴含深刻的行为特征。
图15 新的行为生成与仿真场景
此外,关于生成和仿真本身,我们还有一些思考。由浅入深,可以将目标划分为三个维度:
- 是否可以生成真实的行为:比如,移动行为、上网行为;
- 是否含有类人的非理性因素:人类行为的复杂性很大程度上来源于行为中非理性的因素,可从行为科学比较著名的发现型文章中寻找研究课题;
- 是否可以复现非理性的异质性:不同的人物画像如何影响智能体的行为表现。
相信随着大语言模型的发展,在不久的未来,科幻片中的类人智能体将会照进现实。