问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

LLM能否依据角色的过去预测未来?一篇有趣的研究

创作时间:
作者:
@小白创作中心

LLM能否依据角色的过去预测未来?一篇有趣的研究

引用
CSDN
1.
https://blog.csdn.net/qq_27590277/article/details/138204160

复旦大学和阿里巴巴的最新研究显示,大型语言模型(LLMs)在模拟人类决策过程方面展现出显著潜力。研究团队提出了"NEXT DECISION PREDICTION"任务,通过构建包含1401个人物决策点的"LIFECHOICE"数据集,全面评估了LLMs在模拟角色驱动决策方面的能力。研究发现,虽然LLMs在处理需要多步推理和细节分析的决策时仍面临挑战,但通过创新的"CHARMAP"方法,模型性能得到了显著提升。

"如果我们能够彻底理解所有原因,未来便不是不可预测的奇迹,而是过去不可避免的结果"。这句话出自Voltaire的《历史哲学》,为本研究提供了深刻的背景启示。决策作为人类活动的重要组成部分,每一个重大决策都深深植根于个人的历史。而大型语言模型(LLMs)在模拟特定人物角色方面已取得显著进展,包括理解人类行为、评估角色扮演模型和构建个人助理等。

然而,先前基于LLMs的工作在决策过程方面存在局限性,仅限于简短而直接的背景,因此尚不清楚角色分配的LLM是否能够复制深思熟虑的行动思维过程和心态。因此,LLM的角色驱动决策成为一个重要但未被充分探索的研究领域。

研究内容与创新

研究团队提出了"NEXT DECISION PREDICTION"任务,用于测试LLMs在模拟目标人物角色决策过程中的能力。具体来说,研究关注LLMs是否能够预测高质量小说中人物的决定。为此,研究团队构建了一个名为"LIFECHOICE"的数据集,该数据集包含来自395本书中的1401个人物决策点,这些数据由文学专家撰写的人物分析构成。

研究的创新点包括:

  1. 提出了"NEXT DECISION PREDICTION",这是首个评估角色分配LLM决策能力的任务
  2. 构建了"LIFECHOICE"数据集,该数据集从文学作品中的人物人生选择中构建,基于专家的文学分析
  3. 提出了"CHARMAP"方法,采用基于人物角色的记忆检索来改进LLM角色扮演
  4. 通过广泛实验发现,最先进的角色分配LLM在角色驱动的决策中表现出色

相关工作与数据集构建

研究团队对相关工作进行了详细讨论,包括角色扮演和个性化LLM助手的研究。在数据集构建方面,研究团队使用Supersummary网站,该网站提供文学专家对小说的高质量总结和分析。数据集构建包括三个主要步骤:

  1. 选择可用的小说:为了防止训练过程中的数据泄漏,研究团队使用以下标准过滤站点上的所有小说:
  • 叙述必须排除非小说类型
  • 叙事视角必须在第一人称或第三人称
  • 叙事时间的进展应该是线性的,避免具有复杂时间线或闪回的故事
  1. 构建多项选择题数据:研究团队将完整的摘要、人物的决策节点和潜在的有影响力的章节文本输入到GPT-4中,目标是生成多项选择题,以捕捉人物决策过程的复杂性。每个选项都被设计成看起来是合理的,而只有一个选择——原始书中所做的决策是正确的。

  2. 手动过滤:研究团队邀请了十名以英语为母语的大学生过滤所有数据。同时向注释者提供每个数据样本的相应摘要和人工分析,使他们能够确定模型创建的多项选择题是否具有挑战性和合理性。

数据分析与任务设置

研究团队参考Aristophanes提出的戏剧理论作为系统提示,使用GPT-4将角色决策的动机分为两类元动机及其子动机:

  1. 性格驱动动机:围绕角色的内心世界、个性和转变
  2. 情节驱动动机:源于一系列外部事件和冲突的展开

每个主题只分配一类动机,数据集中的不同动机比例如下图所示:

任务设置方面,给定输入包括决策节点D之前的原书的先前文本内容、当前场景S、关注的角色C、概述该角色面临的决策的多选问题Q以及一组候选答案。最终目标是确定与角色在叙事中的决定一致的正确选择Y。这个任务可以公式化为多项选择题QA的准确性。

与其他人物理解任务相比,LIFECHOICE需要通过大量上下文来理解人物以进行选择。与个人LLM助手类似,该模型需要在与当前场景相关的大量稀疏个人数据中定位相关信息。这种行为需要对人物有更深刻的理解。

实验方法与结果分析

由于文本输入通常超过100k,LLM很难直接处理。研究团队的方法分为两个步骤:

  1. 人物简介构建:研究团队参考角色扮演模型,并提出了两种基线方法。第一种方法将所有的上下文概括为对相应角色的描述,由角色的基本情况和故事情节组成。这提供了角色扮演过程中角色的整体刻画。第二种方法侧重于检索当前场景的记忆,这可以提供更多细节。具体可以划分为描述构建、内存检索以及二者合并的方法。

  2. 答案推理:在将原始输入X压缩为Character Profile之后,将其输入LLM。对于单独的方法,分别使用GPT-4作为最终的推理模型。对于联合方法,使用以下LLMs进行实验:Mixtral-8x7B-MoE、Claude2.1、GPT-3.5-Turbo和GPT4-Turbo。

研究团队希望回答三个研究问题:

  1. LLM能否根据历史数据做出决策?
  2. 是什么影响LLM的决策?
  3. 如何改进LLM的决策?

结果分析

在实验中,研究团队展示了数据集中基线方法对未来预测任务的准确性结果:

可以得出以下几个结果:

  • 组合方法的性能优于单一方法的使用,这表明整体和详细的特征数据在最终决策中都很重要。
  • 当提供gold explanation时,准确性始终超过90%,表明这些解释在数据中的合理性。
  • 在推理答案时,不同LLM之间的性能差距并不显著。这表明结果的主要因素是生成的个人资料,而不是推理能力。

研究团队还根据划分的动机类型,研究了不同类型的动机如何影响角色的决策。评估了三种场景:仅使用模型生成的描述,嵌入检索到的记忆,以及两者的组合。为了进行推理,统一使用GPT-4。结果如下图所示:

对于所有方法,需要连贯推理的任务,如谜题和奥秘,都没有得到很好的答案。这可能是因为这些问题需要多步骤的推理和来自各种记忆的细节。此外,当仅对简介使用描述时,情节驱动的问题的准确性较低。相反,当只依靠记忆时,性格驱动的问题很难回答。这是因为描述中的人物总结更好地捕捉了人物的整体本质,而记忆则提供了对相关事件的直接访问。

同时,研究团队对小说类型是否影响模型性能进行了实验,结果如下图所示:

科幻小说、奇幻小说和言情小说的准确性相当高。这可能是因为这些小说中的人物往往是程序化的,或者具有固定的创作模式和原型。相比之下,犯罪和推理小说表现不佳,这可能是因为它们涉及复杂的逻辑链,并且这些小说中的人物经常采取不正常的行动。

为了验证专家手工注释的动机的有效性,进行了对比试验,如问题1结果所示,证明了手工注释动机的有效性。

研究团队还研究了"如果在这个时刻面对过去几年的决定,你会做出同样的选择吗?"这个问题。具体来说,通过随机抽取40个角色,一半是角色驱动,一半是情节驱动。使用GPT-4进行实验,结果如图5所示:

在早期阶段,大多数角色决策的准确性接近随机(25%),这可能是由于信息不足。随着信息越来越多,角色的决定往往更接近正确的选择。对于角色驱动的决策,准确性往往是稳定的。对于情节驱动,准确率可能会突然变化。这可能是由于角色相对稳定的特征,而一些突发事件可能会极大地影响角色的最终选择。

针对问题2结论来看,模型在回答需要多个细节或多跳推理的问题时往往表现不佳,这可能是由于检索到的内存过于分散。因此研究团队提出了CHARacter MAPping Profile Synthesis(CHARMAP)方法,分两步构建更具体的场景配置文件。如下图所示:

首先,在获得模型生成的描述后,将其与问题一起输入到模型中,要求模型根据问题定位与当前场景相关的描述中的情节。其次,使用这些事件作为查询来检索相关的内存,然后将它们与描述一起输入到推理模型中。

如问题1中的结果表格和问题2中的图1所示,使用CHARMAP后的准确率比直接将描述与内存连接起来高6.01%。如图3所示,使用CHARMAP后,每类问题的准确率都有所提高,尤其是需要多跳推理的谜题类。可能是由于所提利用描述中对角色故事情节的整体描述,从而更好地检索相关记忆。

结论

在这篇论文中,研究团队的工作可以归纳为以下几个关键点:

  1. 新任务提出:引入了NEXTDECISIONPREDICTION任务,这是首次尝试评估大型语言模型(LLMs)在模拟人物驱动决策方面的能力。
  2. 数据集构建:创建了LIFECHOICE数据集,包含来自396本书籍的1401个角色的关键决策点,用于测试LLMs是否能够通过历史人物数据重现实际的故事情节。
  3. 多维度分析:对LLMs在新任务中的表现进行了多角度分析,包括考虑小说类型、人物动机和模型的解决方案方法。
  4. CHARMAP方法:提出了CHARMAP方法,这是一种两步构建过程,旨在创建与当前场景更加相关的人物档案,以提高LLMs在角色扮演任务中的决策准确性。
  5. 决策行为的重要性:强调了决策是人类复杂行为的重要部分,并表达了探索LLMs在个人决策中潜力的愿望。
  6. 评估标准:讨论了建立角色扮演模型和个人LLM助理评估标准的重要性,这可能为未来LLMs在个性化服务和角色扮演应用中的性能评估提供基准。

这项研究不仅为理解LLMs在模拟人类决策方面的潜力提供了重要见解,也为未来开发更智能的角色扮演模型和个人LLM助理奠定了基础。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号