问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

PokéLLMon:采用LLM为Pokémon战斗的人类-对等智体

创作时间:
作者:
@小白创作中心

PokéLLMon:采用LLM为Pokémon战斗的人类-对等智体

引用
CSDN
1.
https://blog.csdn.net/yorkhunter/article/details/139513636

2024年2月,乔治亚理工学院发表了一篇论文,介绍了一个名为"PokéLLMon"的智能体,它能够在Pokemon战斗中实现人类级别的性能。这个智能体基于大语言模型(LLM),采用了三个关键策略:上下文强化学习、知识增强型生成(KAG)以及一致行动缓解恐慌切换现象。在在线对抗人类的测试中,PokéLLMon在Ladder比赛中获得了49%的胜率,在邀请战斗中获得了56%的胜率。

生成人工智能和LLM在游戏中的应用

生成人工智能和LLM在自然语言处理(NLP)任务上取得了前所未有的成功。即将取得的进展之一将是探索LLM如何在从文本到行动的扩展生成空间的物理世界中自主行动,这代表了追求通用人工智能的关键范式。游戏是开发LLM嵌入智能体的合适测试平台,以类人行为的方式与虚拟环境交互。

例如,Generative Agents进行了一项社会实验,LLM在类似"The Sims"的沙盒中扮演各种角色,在沙盒中,Agent表现出与人类相似的行为和社交互动。在Minecraft中,决策智能体旨在探索世界,并开发解决任务和制作工具的新技能。

Pokemon战斗的独特优势

与现有游戏相比,战术战斗游戏更适合作为LLM游戏能力的基准,因为胜率可以直接测量,并且总是可以找到像AI或人类玩家这样的一致对手。Pokemon战斗是在著名的Pokemon游戏中评估训练者战斗能力的一种机制,作为LLM首次尝试玩战术战斗游戏,它提供了几个独特的优势:

  1. 状态和动作空间是离散的,可以无损地翻译成文本。
  2. 回合制消除了密集游戏的需求,减轻LLM推理时间成本的压力,使性能仅取决于LLM的推理能力。
  3. 尽管机制看似简单,但Pokemon之战具有战略性和复杂性:一名经验丰富的玩家会考虑各种因素,包括场内外所有Pokemon的种类/类型/能力/统计数据/物品/移动。

Pokemon战斗的规则和环境实现

在一对一的随机战斗中,两名战斗者对决,每名战斗者有六个随机选择的Pokemon。最初,每个战斗者都会向战场上发送一个Pokemon,并保留其他Pokemon以备将来切换。目标是让对手的所有Pokemon都晕倒(通过将其生命值降至零),同时确保至少有一个自己的Pokemon保持稳定。

战斗基于回合:在每个回合开始时,两名玩家都选择一个动作来执行。动作分为两类:(1)采取行动,或(2)切换到另一个Pokemon。战斗引擎执行动作并更新下一步的战斗状态。如果一个Pokemon在转弯后晕倒,而战斗者有其他Pokemon没有晕倒,战斗引擎会强制切换,这不计入玩家下一步的行动。在强制切换后,玩家仍然可以选择一次移动或进行另一次切换。

环境的文本描述主要由四个部分组成:(1)自己的团队信息,包括Pokemon在场内外的属性;(2) 对方队信息,包括对方Pokemon在场内/外的属性(有些未知);(3) 战场信息,如天气、进入的危险和地形;(4) 历史的回合日志信息,包括双方Pokemon之前的动作,存储在日志队列中。

LLM将转换后的状态作为输入,并输出下一步的动作。该动作被发送到服务器,并与人类玩家选择的动作一起执行。

PokéLLMon的总体框架

如图所示,PokéLLMon的总体框架。在每一个回合中,PokéLLMon都会用以前的动作和相应的基于文本的反馈来迭代地完善策略,并利用外部知识(如类型优势/劣势关系和移动/能力效果)来增强当前的信息状态。给定上述信息作为输入,它独立地生成多个动作,并选择最一致的动作作为执行的最终输出。 PokéLLMon配备了三种策略:(1)IC-RL,它利用战斗的即时反馈来迭代优化生成;(2) KAG获取外部知识以对抗幻觉并及时正确地采取行动;(3) 一致行动生成,以防止紧急切换问题。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号