游戏AI在体育竞技游戏中的应用实践:基于强化学习的足球AI解决方案
游戏AI在体育竞技游戏中的应用实践:基于强化学习的足球AI解决方案
随着人工智能技术的不断发展,越来越多的游戏开发商开始使用AI来提升游戏的真实感和沉浸感。本文将探讨AI在体育竞技游戏(SPG)中的应用实践,重点介绍基于强化学习的足球AI解决方案。
2022年,梅西终于捧起了8年前凝望的大力神杯,体育精神与热血竞技令人狂热与痴迷。与此同时,AI界的新宠儿们,Diffusion Model、chatGPT等AI内容生成模型掀起了新一轮的AI狂热。我们不禁联想——如果有一个AI界的足球世界杯,那将会是怎样?谁又会成为AI界的梅西?
2020年,谷歌基于其开源足球环境,在Kaggle上举办了一场全世界范围的"AI世界杯",共1141支队伍参加,AI运动员们同场竞技,产出了大量的战术打法与高光时刻。
"AI世界杯"毫无疑问向我们展示了,在足球等SPG游戏中,利用AI控制球员并践行战术、提高竞技水平的无限可能。在此之前,足球SPG游戏的AI球员控制往往基于规则,这会导致AI水平有限,团队配合不足,易于被玩家发现、吐槽等,如《FIFA 2017》的Active Intelligence System,《实况足球》的AI控制系统等。
与之相反,基于强化学习的足球AI能够有效提升对局强度,策略多样且拟人性更强。如基于自博弈的强化学习+模仿学习足球AI解决方案,在AI世界杯中被验证能够以更少的算力,取得更好的成绩,并在控球、短传、防守等方面得到了高度认可。
基于强化学习的足球AI解决方案
这一方案基于足球环境原生接口,设计了一整套的状态向量表征方案,包含球、球员、游戏环境等多方面特征,保证了强化学习智能体能够获取足量的环境信息。
动作空间上,基于环境提供接口,包含了空闲、移动、传球/射门等动作,涵盖了足球竞技中的常见行为。奖励设计方面,除了比分奖励外,还设计了检查点奖励,每轮带球首次进入更靠近敌方球门的检查点范围时获取,以让强化学习智能体更加有动力向对方半场进攻。
除了传统RL算法框架外,网易团队还设计了RL+模仿学习(IL,Imitation Learning)的方法,来快速学习掌握对手的强劲策略,使模型更易学习人类与AI优势策略,风格更为多样,强度更高。该框架同时结合强化学习与模仿学习的优势,按照一定比例(λ%)来构建训练所需的样本,并同时优化强化学习的累计期望奖励与模仿学习的模仿误差,使得模型保持了对环境的探索能力,同时还能快速学习专家的打法战术。
基于上述设计,网易结合网易游戏深耕积累的成熟的算法库与训练框架,通过PVE对抗规则AI+自博弈的方式,最终训练出了高强度、多样化风格策略的足球SPG对战AI,并从11v11衍生出了5v5、多智能体等多种智能体方案,相关成果已在网易内部多个项目应用并转化沉淀,可快速迁移到其他游戏环境中。