PokéLLMon：采用LLM为Pokémon战斗的人类-对等智体

创作时间:

作者:

@小白创作中心

PokéLLMon：采用LLM为Pokémon战斗的人类-对等智体

引用

CSDN

https://blog.csdn.net/yorkhunter/article/details/139513636

乔治亚理工学院在2024年2月发表了一篇关于人工智能在游戏领域应用的论文，介绍了一个名为Poke‘LLMon的智能体。这个智能体能够使用大语言模型（LLM）在Pokémon战斗中实现人类级别的性能。本文将详细介绍Poke‘LLMon的关键策略、生成人工智能和LLM在游戏中的应用、Pokémon战斗的规则细节以及Poke‘LLMon的总体框架。

Poke‘LLMon的关键策略

Poke‘LLMon包含三个关键策略：

上下文强化学习（IC-RL）：在上下文中进行强化学习，即时利用来自战斗的基于文本反馈，迭代地完善策略。
知识增强型生成（KAG）：获取外部知识以抵消幻觉并使智能体能够及时正确地采取行动。
一致行动生成：当智能体面对强大的对手并想躲避战斗时，采取一致的行动缓解恐慌切换现象。

在线对抗人类展示了Poke‘LLMon类人战斗策略和适时决策，在Ladder比赛中获得49%胜率，在邀请战斗中获得56%胜率。实现代码可参考：https://github.com/git-disl/PokeLLMon。

LLM在游戏中的应用

生成人工智能和LLM在NLP任务上取得了前所未有的成功。即将取得的进展之一将是探索LLM如何在从文本到行动的扩展生成空间的物理世界中自主行动，这代表了追求通用人工智能的关键范式。游戏是开发LLM嵌入智能体的合适测试平台，以类人行为的方式与虚拟环境交互。

通信游戏

交际游戏围绕玩家之间的交流、演绎和欺骗。LLM在棋盘游戏中表现出战略行为，如狼人杀、 Avalane、第二次世界大战（World War II）和外交（Diplomat）。

开放式游戏

开放式游戏允许玩家自由探索游戏世界并与他人互动。Generative Agent展示了LLM智能体模仿类人模式的行为和社会互动。MineCraft中Voyager采用课程机制探索世界，并生成和执行解决代码。DEPS提出了一种“描述、解释、规划和选择”的方法来完成70多项任务。基于规划的框架，如AutoGPT和MetaGPT也可以用于勘探任务。

战术战斗游戏

LLM被用来与内置的AI对抗《星际争霸II》，后者具有基于文本的界面和摘要链方法。相比之下，POKÉLLMON有几个优点：

将POKÉmon战斗状态翻译成文本是无损的；
考虑到LLM的推理时间成本，基于回合的格式消除了实时压力；
与守纪的人类选手对抗将难度提升到了一个新的高度。

Pokémon战斗规则

在一对一的随机战斗中，两名战斗者对决，每名战斗者有六个随机选择的Pokémon。最初，每个战斗者都会向战场上发送一个Pokémon，并保留其他Pokémon以备将来切换。目标是让对手的所有Pokémon都晕倒（通过将其生命值降至零），同时确保至少有一个自己的Pokémon保持稳定。

战斗基于回合：在每个回合开始时，两名玩家都选择一个动作来执行。动作分为两类：（1）采取行动，或（2）切换到另一个Pokémon。战斗引擎执行动作并更新下一步的战斗状态。如果一个Pokémon在转弯后晕倒，而战斗者有其他Pokémon没有晕倒，战斗引擎会强制切换，这不计入玩家下一步的行动。在强制切换后，玩家仍然可以选择一次移动或进行另一次切换。

战斗环境与框架

基于https://github.com/hsahovic/poke-env实现了一个战斗环境，支持LLM自主玩Pokémon战斗。环境的文本描述主要由四个部分组成：

自己的团队信息，包括Pokémon在场内外的属性；
对方队信息，包括对方Pokémon在场内/外的属性（有些未知）；
战场信息，如天气、进入的危险和地形；
历史的回合日志信息，包括双方Pokémon之前的动作，存储在日志队列中。

LLM将转换后的状态作为输入，并输出下一步的动作。该动作被发送到服务器，并与对手玩家选择的动作一起执行。

Poke‘LLMon的总体框架

如图所示，POKÉLLMON的总体框架。在每一个回合中，POKÉLLMON都会用以前的动作和相应的基于文本的反馈来迭代地完善策略，并利用外部知识（如类型优势/劣势关系和移动/能力效果）来增强当前的信息状态。给定上述信息作为输入，它独立地生成多个动作，并选择最一致的动作作为执行的最终输出。 POKÉLLMON配备了三种策略：