问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

PokéLLMon:采用LLM为Pokémon战斗的人类-对等智体

创作时间:
作者:
@小白创作中心

PokéLLMon:采用LLM为Pokémon战斗的人类-对等智体

引用
CSDN
1.
https://blog.csdn.net/yorkhunter/article/details/139513636

乔治亚理工学院在2024年2月发表了一篇关于人工智能在游戏领域应用的论文,介绍了一个名为Poke‘LLMon的智能体。这个智能体能够使用大语言模型(LLM)在Pokémon战斗中实现人类级别的性能。本文将详细介绍Poke‘LLMon的关键策略、生成人工智能和LLM在游戏中的应用、Pokémon战斗的规则细节以及Poke‘LLMon的总体框架。

Poke‘LLMon的关键策略

Poke‘LLMon包含三个关键策略:

  1. 上下文强化学习(IC-RL):在上下文中进行强化学习,即时利用来自战斗的基于文本反馈,迭代地完善策略。

  2. 知识增强型生成(KAG):获取外部知识以抵消幻觉并使智能体能够及时正确地采取行动。

  3. 一致行动生成:当智能体面对强大的对手并想躲避战斗时,采取一致的行动缓解恐慌切换现象。

在线对抗人类展示了Poke‘LLMon类人战斗策略和适时决策,在Ladder比赛中获得49%胜率,在邀请战斗中获得56%胜率。实现代码可参考:https://github.com/git-disl/PokeLLMon

LLM在游戏中的应用

生成人工智能和LLM在NLP任务上取得了前所未有的成功。即将取得的进展之一将是探索LLM如何在从文本到行动的扩展生成空间的物理世界中自主行动,这代表了追求通用人工智能的关键范式。游戏是开发LLM嵌入智能体的合适测试平台,以类人行为的方式与虚拟环境交互。

通信游戏

交际游戏围绕玩家之间的交流、演绎和欺骗。LLM在棋盘游戏中表现出战略行为,如狼人杀、 Avalane、第二次世界大战(World War II)和外交(Diplomat)。

开放式游戏

开放式游戏允许玩家自由探索游戏世界并与他人互动。Generative Agent展示了LLM智能体模仿类人模式的行为和社会互动。MineCraft中Voyager采用课程机制探索世界,并生成和执行解决代码。DEPS提出了一种“描述、解释、规划和选择”的方法来完成70多项任务。基于规划的框架,如AutoGPT和MetaGPT也可以用于勘探任务。

战术战斗游戏

LLM被用来与内置的AI对抗《星际争霸II》,后者具有基于文本的界面和摘要链方法。相比之下,POKÉLLMON有几个优点:

  1. 将POKÉmon战斗状态翻译成文本是无损的;
  2. 考虑到LLM的推理时间成本,基于回合的格式消除了实时压力;
  3. 与守纪的人类选手对抗将难度提升到了一个新的高度。

Pokémon战斗规则

在一对一的随机战斗中,两名战斗者对决,每名战斗者有六个随机选择的Pokémon。最初,每个战斗者都会向战场上发送一个Pokémon,并保留其他Pokémon以备将来切换。目标是让对手的所有Pokémon都晕倒(通过将其生命值降至零),同时确保至少有一个自己的Pokémon保持稳定。

战斗基于回合:在每个回合开始时,两名玩家都选择一个动作来执行。动作分为两类:(1)采取行动,或(2)切换到另一个Pokémon。战斗引擎执行动作并更新下一步的战斗状态。如果一个Pokémon在转弯后晕倒,而战斗者有其他Pokémon没有晕倒,战斗引擎会强制切换,这不计入玩家下一步的行动。在强制切换后,玩家仍然可以选择一次移动或进行另一次切换。

战斗环境与框架

基于https://github.com/hsahovic/poke-env实现了一个战斗环境,支持LLM自主玩Pokémon战斗。环境的文本描述主要由四个部分组成:

  1. 自己的团队信息,包括Pokémon在场内外的属性;
  2. 对方队信息,包括对方Pokémon在场内/外的属性(有些未知);
  3. 战场信息,如天气、进入的危险和地形;
  4. 历史的回合日志信息,包括双方Pokémon之前的动作,存储在日志队列中。

LLM将转换后的状态作为输入,并输出下一步的动作。该动作被发送到服务器,并与对手玩家选择的动作一起执行。

Poke‘LLMon的总体框架

如图所示,POKÉLLMON的总体框架。在每一个回合中,POKÉLLMON都会用以前的动作和相应的基于文本的反馈来迭代地完善策略,并利用外部知识(如类型优势/劣势关系和移动/能力效果)来增强当前的信息状态。给定上述信息作为输入,它独立地生成多个动作,并选择最一致的动作作为执行的最终输出。 POKÉLLMON配备了三种策略:

  1. IC-RL,它利用战斗的即时反馈来迭代优化生成;
  2. KAG获取外部知识以对抗幻觉并及时正确地采取行动;
  3. 一致行动生成,以防止紧急切换问题。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号