腾讯实验室新研究:增强游戏狼人杀中LLM的推理能力
腾讯实验室新研究:增强游戏狼人杀中LLM的推理能力
在腾讯实验室的最新研究中,研究人员提出了一种创新框架,通过将大语言模型(LLM)与外部推理模块(Thinker)相结合,显著提升了AI在狼人杀游戏中的推理能力。这种协同工作方式不仅优化了LLM的直观推理能力,还通过Thinker模块增强了其在复杂逻辑分析和特定领域知识方面的表现。
2024年2月,腾讯实验室发表论文“Enhance Reasoning for Large Language Models in the Game Werewolf”,提出了一种创新方法,通过将大语言模型(LLM)与外部的Thinker模块集成,来增强基于LLM的智能体在狼人杀游戏中的推理能力。与传统的提示工程方法不同,Thinker模块直接利用数据库中的知识,并采用各种优化技术。这种框架形成了一套推理体系,其中LLM负责处理直观的系统-1任务(如自然语言处理),而Thinker则专注于需要复杂逻辑分析和特定领域知识的系统-2任务。
在一个9人狼人杀游戏中,研究团队使用了一个双机系统进行推理。LLM和Thinker之间通过一个通信协议进行交互,并使用了18800次人机对话和强化学习的数据来训练Thinker。此外,当与Thinker集成时,研究团队对60亿参数的LLM进行了微调,使其性能超过了GPT-4。为了支持这项研究,团队还构建了迄今为止最大的社会演绎游戏数据集。
狼人杀游戏规则
狼人杀游戏分为两个派系:“好人”派系(包括村民和特殊角色)和“狼人”派系。此外,还有一名主持人(Moderator)负责管理游戏并确保规则得到遵守。“好人”派系的目标是识别并处决所有狼人,而狼人的目标则是杀死或流放所有村民或所有特殊角色。
一个标准的狼人杀游戏由3名村民、3名狼人和3个特殊角色(先知、女巫和猎人)组成。玩家的身份在游戏过程中是相互隐藏的,即使被游戏淘汰后也是如此。
- 狼人:狼人知道彼此的身份。晚上他们决定杀死一个玩家,其中可能包括他们自己。如果出现平局,则随机选择一名玩家被杀死。狼人可以在发言过程中选择自杀,这将暴露他们的身份。
- 村民:村民没有什么特殊能力,主要通过分析其他玩家的发言来判断其身份,并投票流放潜在的狼人。
- 先知:先知可以每晚验证一名玩家的派系(狼人或“好人”),但不知道具体角色。先知无法验证自己或任何已验证的玩家。
- 女巫:女巫拥有解药和毒药。解药可以拯救夜间被狼人杀死的玩家,毒药可以杀死任意玩家。女巫不能在同一个晚上同时使用两种药剂,但可以在第一个晚上自救。
- 猎人:当猎人在晚上被狼人杀死或在白天被投票淘汰时,可以射杀一名玩家。然而,猎人在被女巫毒死时不能使用他的能力。
技术框架
研究团队提出了一种创新框架,通过将LLM与外部推理和决策模块(称为Thinker)协同工作,旨在增强具有复杂推理能力的基于LLM的智能体。Thinker和LLM之间的通信通过结构化功能和提示指令引入了一种协议。该框架被分解为三个主要处理组件:
- Listener:作为理解自然语言的主要接口。它处理语言输入,进行直观的系统-1推理,并将信息转换为Thinker可以解释的结构化语言特征。
- Thinker:作为框架的认知核心。它利用Listener提供的语言功能,专门从事需要深入逻辑分析和特定领域知识的系统-2推理任务。Thinker负责制定规划和动作等策略,并为Presenter制定战略指示。
- Presenter:充当系统的咬合架。它在Thinker的战略指示指导下,产生与当前环境状态相一致的连贯和情境化的语言输出。Presenter确保生成的语言是合乎逻辑的、合理的、一致的,并且没有幻觉。
实验方法
为了证明框架的有效性,研究团队将其应用于复杂的社会推理游戏《狼人杀》。实验过程包括:
- 除了直接提示GPT-3.5和GPT-4生成语言特征外,还从FanLang-9数据集中提取了260K个语音实例。
- 使用GPT-3.5对语音-特征对进行标记,并微调ChatGLM-6B模型以实现相同的推理任务。
- 为了确保语言功能的输出格式,为GPT和微调模型提供了一个后处理滤波器。对于说话者自身属性的表达式,滤波器需要完全匹配。对于与他人属性有关的表达,语音指令中指示的内容必须一致。对于指令中未提及的部分,滤波器允许Presenter在出现幻觉的情况下有一定的余地。
- 语音生成过程进行迭代,直到它成功地满足滤波标准。
这项研究展示了通过将LLM与外部推理模块结合,可以显著提升AI在复杂推理任务中的表现,为未来AI在更多领域的应用提供了新的思路和方向。