游戏人工智能:从经典算法到未来趋势
游戏人工智能:从经典算法到未来趋势
游戏人工智能(AI)被誉为人工智能领域的“果蝇”,在推动AI技术发展方面发挥着重要作用。从早期的极小化极大算法到现代的深度强化学习,游戏AI经历了飞速发展。近年来,随着深度学习和强化学习等AI方法的快速发展,新的人工智能方法在游戏领域取得了突破性进展。
游戏AI研究发展历程
游戏/博弈(game)被誉为人工智能领域的“果蝇”。历史上许多著名科学家在这个领域做出了卓越的贡献。现代计算机创始人冯·诺依曼于1928 年提出的极小化极大算法至今仍是指导博弈算法设计的主要思想之一。1950 年,信息论创始人香农和计算机科学创始人图灵对国际象棋程序做了有益尝试。1961 年,人工智能创始人之一麦卡锡提出的α-β 剪枝算法成为1997 年深蓝(Deep Blue)计算机战胜国际象棋冠军卡斯帕罗夫的主要算法。深蓝的开发者之一IBM 研究员Tesauro于1992 年提出的强化学习算法TD-Gammon 战胜了西洋双陆棋的人类世界冠军。
游戏AI 研究发展历程图
近年来,随着深度学习和强化学习等人工智能(artificial intelligence,AI)方法的快速发展,新的人工智能方法摘取了游戏领域的一项项桂冠。2013 年,DeepMind公司提出一类深度强化学习方法深度Q 网络(deep Q-network,DQN),在视频游戏上的效果接近或超过人类游戏玩家。2015 年,Silver 等提出的基于深度强化学习和蒙特卡罗树搜索的围棋算法AlphaGo 以5 : 0 战胜欧洲围棋冠军樊麾;又于2016 年, 以4 : 1 战胜超一流围棋选手李世石,使围棋AI 水平达到前所未有的高度;2017 年,又提出AlphaGo Zero,完全不用人类围棋棋谱而完胜最高水平的AlphaGo,并进一步形成通用AI 算法MuZero,同时超过顶级的国际象棋和日本将棋AI。MuZero 算法引入基于模型的方法,既可以下棋,还可以打视频游戏,算法的通用性更好、水平更高,成为上述技艺的集大成者。
除了围棋,其他回合制的棋牌类游戏也得到广泛关注。2017 年,阿尔伯塔大学提出DeepStack 算法,在一对一无限注德州扑克中击败职业扑克玩家。2019 年,卡内基·梅隆大学提出六人桌德州扑克算法Pluribus,在多人制德州扑克中战胜职业选手。2019 年,微软公司提出麻将算法Suphx, 超过人类顶级玩家的10 段水平。
DeepMind 团队面向星际争霸II 研制的AlphaStar 的决策过程
即时制游戏对游戏参与方的动作没有回合制的限制,因此对动作决策的实时性要求更高,通常也有战争迷雾遮挡的不完全信息、多个体参与等特点,游戏AI 的开发难度更大。2019 年, 针对星际争霸II 游戏,DeepMind 公司提出的AlphaStar算法超过宗师级水平。针对刀塔2 游戏,OpenAI 公司提出的PPO (proximal policy optimization,近端策略优化)算法战胜了世界冠军。2021 年,针对有因果效应的蒙特祖玛等游戏,Uber 和OpenAI 公司联合提出Go-Explore 算法,并给出机器人应用的迁移验证。其他工作还包括DeepMind 公司针对第一视角多个体合作的雷神之锤竞技场游戏AI,腾讯公司针对王者荣耀游戏的绝悟AI 等。
游戏人工智能方法的卓越成就极大地开阔了人们的视野、启发了人们的思维,不仅推动了多学科领域的深度交叉,更促进了其在各行各业的广泛应用拓展。既有棋牌、视频等多种游戏AI 设计的全面深入开展,又有在自动驾驶、交通物流、搜索推荐、先进制造、机器人、量化金融、医疗健康、智慧教育等众多领域的应用示范落地。
游戏AI的关键性挑战与研究思路
虽然复杂环境下的游戏AI 研究取得了一系列突破性进展,但是仍然面临许多挑战。以数据驱动的深度学习方法需要海量且高质量的人为标注数据为支撑,提高深度神经网络模型的泛化性。强化学习的优化过程需要平衡探索与利用之间的关系,考虑稀疏奖赏、延迟奖赏等问题。
游戏AI 研究过程面临的重要挑战和可能的解决方案可归纳如下。
探索空间庞大。游戏环境中高维的状态动作空间庞大且探索过程复杂,尤其是策略竞技类游戏,因此可以通过引入深度神经网络模型对环境信息进行表征学习,使其从复杂的环境信息中提取特征,压缩状态空间维度并获得有效的环境表征信息。此外,以专家经验为指导,将任务环境按照由易到难的过程,通过课程学习的方式逐步探索复杂空间,有效增强环境探索效率。
策略学习困难。面对动态且未知环境时,学习型模型难以在短时间内从零开始学习到有效策略。随着深度神经网络方法的不断普及与应用、游戏数据的不断积累与完善,基于数据驱动的监督式预训练配合深度强化学习的持续性优化可以有效解决模型冷启动困难的问题,提高相应的学习效率,并且在围棋、星际争霸、麻将等复杂决策环境取得突破性研究成果。
模型泛化有限。游戏AI 方法一般是针对特定游戏环境设计的,难以在其他类似或不同的游戏环境上进行迁移,致使方法泛化性有限,无法节省游戏AI 的设计与开发时间。以DQN 为代表的深度强化学习方法,可以在不同的雅达利游戏环境采用同种方法进行学习优化,以适应不同环境任务的需求。此外,以蒙特卡罗树搜索(Monte Carlo tree search, MCTS)算法和滚动时域演化算法为代表的统计前向规划(statistical forward planning,SFP)方法无须进行模型训练,而是以基于前向模型推理的方式自适应不同游戏环境的需求,并且在通用视频游戏AI 任务得到成功应用。
目前,游戏AI 的研究思路主要集中在两个方向。一个方向是在专家知识的基础上构建启发式规则系统,设计高效的最优决策解搜索算法。另一个方向是在机器学习方法的基础上构建策略模型,通过交互数据驱动的方式优化模型决策过程。在早期硬件计算资源相对落后且算力不足的情况下,基于规则约束的方式可以减小问题解空间,然后通过启发式搜索找到可行最优解。随着硬件计算性能的不断提升和数据信息存储的持续增加,基于数据驱动和环境交互的最优化算法正发挥着举足轻重的作用。
游戏AI的未来发展趋势与展望
面向游戏AI 的智能决策对于智能决策方法在相关专业领域的发展和应用具有深远的现实意义。近年来,基于深度强化学习的游戏AI 智能体在众多游戏中取得令人瞩目的研究成果。从二维完全信息单智能体决策,到三维不完全信息多智能体协作,以深度强化学习为代表的新一代智能决策方法在这些复杂游戏中达到了顶尖玩家水平,并且在以围棋为代表的复杂回合制游戏和以星际争霸为代表的复杂即时制游戏中击败人类顶尖职业玩家。与此同时,深度强化学习方法在理论基础和实际应用方面也得到进一步发展,在样本利用率、泛化性、不完全信息、多智能体学习和高效探索等方面不断完善。
尽管游戏AI 已经取得一系列突破性成果,但是对于复杂的游戏环境,完全基于深度强化学习方法来展开工作依然存在一定的困难。基于上述考虑,未来的相关研究工作可以从以下几个方面展开。
1. 基于深度强化学习方法的策略模型泛化性
基于深度强化学习方法的策略模型在训练过程中的泛化性通常很难得到有效保证。尤其是,在复杂游戏场景中长期系统决策、奖赏信号稀疏时,策略模型的环境探索泛化性很难达到理想效果,使最终的模型表现性能有限。目前,针对深度强化学习策略模型泛化性不足的问题,常用的方法有L1、L2 范数正则化、状态信息熵最大化、好奇心驱动机制、状态探索计数、数据增广,以及辅助任务训练优化等。此外,还可引入种群优化的思想,设计联盟训练机制,实现群体智能协同优化。综上所述,可通过增强模型探索多样性,丰富环境交互训练样本,从而提升策略模型的泛化性。
2. 构建高效鲁棒合理的前向推理模型
前向推理模型可使策略模型具备长期推理规划的能力,有效解决神经网络模型应激性反应缺陷,增强模型的深层推理能力。基于前向推理模型的统计前向规划方法,不需要对模型进行训练和优化便可适应游戏任务环境,并达到一定的性能水平。然而,这类基于前向模型的推理决策方法需要依靠系统辨识度较高的前向模型作为状态结果推理器进行统计采样,从而获得最优可行解。为满足实时性要求,通常需要简化前向模型系统的复杂度。这使设计者需要平衡系统辨识度和实时性的矛盾。因此,可考虑采用MuZero这类可学习型前向神经网络建模方法,通过拟合前向模拟器结果来增强模型前向规划能力,缩短系统推理时间,提高系统辨识性。但是,这需要采集或生成较多的系统状态动作,构成辨识信息数据集。同时,为使模型能够有效拟合大规模样本的分布,系统模型复杂度会不可避免地增长,使前向推理速度过慢而产生时延问题。因此,在满足实时性要求的前提下,构建高效、鲁棒且合理的前向模型对于提高基于前向模型推理的算法性能至关重要。
3. 增强模型的环境适应和学习优化性能
如何将深度强化学习方法的策略学习优化性与统计前向规划型方法的环境模型适应性有机结合,使游戏AI 模型可以同时兼具良好的模型优化性和环境适应性,实现智能决策模型高效优化,已成为一个重要的研究方向。借鉴Go-Explore研究思路,为不同状态构建高效的存档记录,通过存档记录价值,将对应的高价值存档记录作为初始探索状态,提高模型的环境探索与交互适应性,以此增强模型的学习优化性能。另外,以MuZero为代表的深度强化学习与统计前向规划进行的深度融合方法,已经在回合制游戏和即时制游戏任务中取得突出成果,并且模型训练效率较早期AlphaGo Zero 模型取得了显著提升,也进一步证明该研究方向的可行性和发展潜力。
4. 从虚拟环境到实际应用的迁移
游戏作为虚拟仿真环境具有安全、高效、成本低等优势,可以有效近似现实世界的实际任务环境。利用游戏AI 算法实现从仿真到实体的虚实迁移过程,具有深远的意义。通常,虚实迁移要求游戏仿真环境具备高效且逼真的物理仿真环境,并经过仿真环境交互产生的大量数据来优化系统策略模型。然而,当虚实环境执行误差较大时会使模型学习到的策略无法直接应用到实体环境。一种有效的解决思路是在状态空间和动作空间的设计上,缓解虚实环境差异对算法迁移造成的影响,引入域随机化的思想,通过在仿真环境添加多尺度噪声影响来增强模型系统鲁棒性,从而更深层次地实现从仿真到实体的模型鲁棒训练迁移,真正实现虚拟与实体的有效融合。
除了实体应用需求,当前游戏AI 的突破性研究进展大部分集中在虚拟玩家设计上,利用数据驱动技术优化虚拟玩家水平,提高游戏智能体的智能化、拟人化、多样性风格。游戏AI 技术同样需要做到以人为本,不应止于智能体的性能表现水平,同时应当用于游戏设计过程中提升玩家的体验感和舒适度,增强游戏的趣味性与可玩性。腾讯、网易、字节跳动等国内顶尖游戏AI 公司纷纷将注意力转移至此,以深度强化学习为核心结合其他先进算法和模型,在游戏数值策划、游戏关卡设计、游戏角色生成,以及游戏系统测试等重要相关领域开展应用研究。最终的目标是让游戏AI 服务于整个游戏行业,辐射到其他现实生活问题,如智能驾驶、机器人等。
本文摘编自《游戏人工智能方法》(赵冬斌等著. 北京:科学出版社,2024.2)一书“前言”“第1 章游戏人工智能介绍”,有删减修改,标题为编者所加。
(新一代人工智能理论、技术及应用丛书)
“十四五”时期国家重点出版物出版专项规划项目
国家出版基金项目
ISBN 978-7-03-077095-0
责任编辑: 孙伯元
本书尝试总结近年来游戏人工智能方向的优秀研究工作,以及作者的一些探索成果。主要内容包括游戏人工智能的背景、经典的游戏人工智能方法、DeepMind 针对棋牌和视频类游戏的人工智能方法,以及作者团队针对即时游戏的人工智能方法,如格斗游戏、星际争霸的宏观生产和微观操作等。从理论分析到算法设计到编程实现,旨在为读者提供一个针对不同游戏人工智能问题的系统性论述。
本书适合人工智能等相关领域科技人员参考使用,也可供高校相关专业的研究生学习。
(本文编辑:刘四旦)
一起阅读科学!
专业品质 学术价值
原创好读 科学品位
科学出版社 视频号
硬核有料 视听科学
传播科学,欢迎您点亮★星标,点赞、在看