腾讯实验室新研究：增强游戏狼人杀中LLM的推理能力

创作时间:

作者:

@小白创作中心

腾讯实验室新研究：增强游戏狼人杀中LLM的推理能力

引用

CSDN

https://blog.csdn.net/yorkhunter/article/details/139513627

在腾讯实验室的最新研究中，研究人员提出了一种创新框架，通过将大语言模型（LLM）与外部推理模块（Thinker）相结合，显著提升了AI在狼人杀游戏中的推理能力。这种协同工作方式不仅优化了LLM的直观推理能力，还通过Thinker模块增强了其在复杂逻辑分析和特定领域知识方面的表现。

2024年2月，腾讯实验室发表论文“Enhance Reasoning for Large Language Models in the Game Werewolf”，提出了一种创新方法，通过将大语言模型（LLM）与外部的Thinker模块集成，来增强基于LLM的智能体在狼人杀游戏中的推理能力。与传统的提示工程方法不同，Thinker模块直接利用数据库中的知识，并采用各种优化技术。这种框架形成了一套推理体系，其中LLM负责处理直观的系统-1任务（如自然语言处理），而Thinker则专注于需要复杂逻辑分析和特定领域知识的系统-2任务。

在一个9人狼人杀游戏中，研究团队使用了一个双机系统进行推理。LLM和Thinker之间通过一个通信协议进行交互，并使用了18800次人机对话和强化学习的数据来训练Thinker。此外，当与Thinker集成时，研究团队对60亿参数的LLM进行了微调，使其性能超过了GPT-4。为了支持这项研究，团队还构建了迄今为止最大的社会演绎游戏数据集。

狼人杀游戏规则

狼人杀游戏分为两个派系：“好人”派系（包括村民和特殊角色）和“狼人”派系。此外，还有一名主持人（Moderator）负责管理游戏并确保规则得到遵守。“好人”派系的目标是识别并处决所有狼人，而狼人的目标则是杀死或流放所有村民或所有特殊角色。

一个标准的狼人杀游戏由3名村民、3名狼人和3个特殊角色（先知、女巫和猎人）组成。玩家的身份在游戏过程中是相互隐藏的，即使被游戏淘汰后也是如此。

狼人：狼人知道彼此的身份。晚上他们决定杀死一个玩家，其中可能包括他们自己。如果出现平局，则随机选择一名玩家被杀死。狼人可以在发言过程中选择自杀，这将暴露他们的身份。
村民：村民没有什么特殊能力，主要通过分析其他玩家的发言来判断其身份，并投票流放潜在的狼人。
先知：先知可以每晚验证一名玩家的派系（狼人或“好人”），但不知道具体角色。先知无法验证自己或任何已验证的玩家。
女巫：女巫拥有解药和毒药。解药可以拯救夜间被狼人杀死的玩家，毒药可以杀死任意玩家。女巫不能在同一个晚上同时使用两种药剂，但可以在第一个晚上自救。
猎人：当猎人在晚上被狼人杀死或在白天被投票淘汰时，可以射杀一名玩家。然而，猎人在被女巫毒死时不能使用他的能力。

技术框架

研究团队提出了一种创新框架，通过将LLM与外部推理和决策模块（称为Thinker）协同工作，旨在增强具有复杂推理能力的基于LLM的智能体。Thinker和LLM之间的通信通过结构化功能和提示指令引入了一种协议。该框架被分解为三个主要处理组件：

Listener：作为理解自然语言的主要接口。它处理语言输入，进行直观的系统-1推理，并将信息转换为Thinker可以解释的结构化语言特征。
Thinker：作为框架的认知核心。它利用Listener提供的语言功能，专门从事需要深入逻辑分析和特定领域知识的系统-2推理任务。Thinker负责制定规划和动作等策略，并为Presenter制定战略指示。
Presenter：充当系统的咬合架。它在Thinker的战略指示指导下，产生与当前环境状态相一致的连贯和情境化的语言输出。Presenter确保生成的语言是合乎逻辑的、合理的、一致的，并且没有幻觉。

实验方法

为了证明框架的有效性，研究团队将其应用于复杂的社会推理游戏《狼人杀》。实验过程包括：

除了直接提示GPT-3.5和GPT-4生成语言特征外，还从FanLang-9数据集中提取了260K个语音实例。
使用GPT-3.5对语音-特征对进行标记，并微调ChatGLM-6B模型以实现相同的推理任务。
为了确保语言功能的输出格式，为GPT和微调模型提供了一个后处理滤波器。对于说话者自身属性的表达式，滤波器需要完全匹配。对于与他人属性有关的表达，语音指令中指示的内容必须一致。对于指令中未提及的部分，滤波器允许Presenter在出现幻觉的情况下有一定的余地。
语音生成过程进行迭代，直到它成功地满足滤波标准。