问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

LLM玩星际争霸II:基准和摘要链方法

创作时间:
作者:
@小白创作中心

LLM玩星际争霸II:基准和摘要链方法

引用
CSDN
1.
https://blog.csdn.net/yorkhunter/article/details/139537678

2023年12月,中科院自动化所、中科大和自动化所南京AI研究机构联合发布了一篇重要论文,题为《Large Language Models Play StarCraft II: Benchmarks and A Chain of Summarization Approach》。该研究聚焦于大语言模型(LLM)在《星际争霸II》这一复杂战略游戏中的应用,提出了创新性的解决方案。

研究背景与挑战

在《星际争霸II》中,AI系统需要具备长期战略规划能力和高度的可解释性,而此前的Alphabstar和SCC等系统在这方面表现不足。为了解决这一问题,研究团队开发了一个全新的文本环境——TextStarCraft II,使LLM能够直接与游戏进行交互。

摘要链方法

研究团队提出了一种名为"摘要链"(Chain of Summarization,CoS)的方法,通过两个核心模块来增强LLM在游戏中的表现:

  1. 单帧摘要:从原始数据中提取关键信息,帮助LLM快速掌握游戏的当前状态。
  2. 多帧摘要:处理关键信息的多个步骤,使LLM能够快速分析正在进行的游戏情况,提供应对策略,并做出明智的决定。

实验结果

实验分为两部分:一是评估LLM对《星际争霸II》知识的掌握程度及其在游戏中的表现;二是测试LLM智体的游戏内性能,包括胜率和摘要链的效果。结果显示:

  1. LLM具备应对《星际争霸II》场景所需的相关知识和复杂规划能力。
  2. LLM智体的表现接近于有8年经验的玩家。
  3. 在5级难度下,LLM智体能够击败内置AI。

技术实现

如图所示是与LLM交互:TextStarCraft II中的增强摘要链方法(Enhanced Chain of Summarization Method)。该方法是一种LLM驱动的战略游戏简化,初始化之后,将游戏的初始数据转换为文本,然后排队进行处理。接下来是单帧和多帧摘要( Single-Frame and Multi-Frame Summarization),通过高级LLM推理将观察结果提炼并总结为可操作的见解。命令制定和动作规划(Directive Formulation and Action Scheduling)阶段将见解划分为具体动作,把行动队列迁移成后续动作。最后,动作检索和执行(Action Retrieval and Execution)在游戏中实现这些动作,将新数据转换为文本以进行连续交互来结束闭环。在TextStarCraft II复杂的战略环境中这种循环过程提高了LLM的性能。

这一研究不仅展示了LLM在复杂战略游戏中的潜力,也为未来AI在更多领域中的应用提供了新的思路和方法。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号