SLG游戏人机太“笨”?附深度强化学习的 SLG AI方案,提升游戏玩家体验
SLG游戏人机太“笨”?附深度强化学习的 SLG AI方案,提升游戏玩家体验
SLG(策略类游戏)作为深度策略游戏品类的代表,一直是展现人类智慧之光的最佳舞台之一。欣赏顶尖玩家间的对决是一场大脑的狂欢,奇谋频出、神机莫测般的对局让人不禁摩拳擦掌,跃跃欲试。但当我们打开游戏时,往往是高玩难觅,人机相陪,朋友闲隙不常有,而人机却全是数值怪。
想打一场酣畅淋漓,气贯长虹的对局怎么这么难?可不可以让人机也聪明狡猾,巧计随发?
为什么大多数SLG中的人机,都这么笨?!
在绝大多数SLG游戏中,决策一般由两个层级组成:城市、国家。城市与国家之间的决策需要密切关联,才能最大限度地发挥一个国家的实力。由于SLG中丰富的元素,在不同的态势下,一个国家的最优决策链亦大不相同,如开局在蛮荒之野 vs 膏腴之地,边远之陲 vs 四战之地。在不同的开局条件下,一个国家的决策从顶层设计到微操实现都有着极大的区别,并且随着时间的变化,亦需要不断调整一个国家的战略方向,“入则无法家拂士,出则无敌国外患者,国恒亡”。
这为基于规则的行为树带来了极大的挑战,从现实的角度来说,书写如此庞大的行为树是不现实的,也容易导致“财政赤字”。在绝大多数SLG游戏中,有一个可以应付绝大多数场景的万金油规则便足够了,“什么?玩家觉得我们的AI太弱了?加数值!给AI开局50000骑兵!”
这便带来了SLG中普遍的痛点:破局陷阱
城市主要涉及微操,如资源采集
国家主要负责宏观决策,如外交关系、军事行动
(图片来源:网络)
SLG游戏的破局陷阱
SLG作为深度策略游戏品类的代表,一直是展现人类智慧之光的最佳舞台之一。欣赏顶尖玩家间的对决是一场大脑的狂欢,奇谋频出、神机莫测般的对局让人不禁摩拳擦掌,跃跃欲试。但当我们打开游戏时,往往是高玩难觅,人机相陪,朋友闲隙不常有,而人机却全是数值怪。
想打一场酣畅淋漓,气贯长虹的对局怎么这么难?可不可以让人机也聪明狡猾,巧计随发?
破局陷阱
玩家的主要体验被集中在前期破局,而由于AI的高数值与策略单一,被很多玩家戏称为“做题”——必须按照攻略一步一步走,不能有任何分差;一旦“破局”成功,游戏将彻底进入垃圾时间——毕竟AI只是会打优势局的数值怪。
导致SLG游戏陷入破局陷阱的原因有很多,但其中的根本便是:基于规则的行为树无法覆盖一局完整的游戏周期,如果不给予行为树极高的数值,由于行为树的策略单一且强度不足,玩家几乎在整局游戏中都不会体验到有效的对抗,从而导致游戏的垃圾时间占比非常高。使用高数值的方法更像一种妥协:既然我们无法给予AI聪明的大脑,那只能给予它强壮的身体了。
这会带来什么问题?游戏在中后期彻底进入垃圾时间。
大多数玩SLG的玩家,都有一些运筹帷幄的情怀:我前期辛辛苦苦种田发育,好不容易熬成一方霸主,倾一国之力来和人机决一死战,希望能打一场青史留名的大会战!而不是无论我摆出怎样的阵型,设下了几路伏兵,他却只会从中央突破。当我使出浑身解数,拿出看家本领的时候,希望对方能给予相应的"尊重"。而这份"尊重",基于规则的行为树是无法给予的。
基于深度强化学习的SLG AI
SLG游戏中人机对策略的深度和广度都很缺乏,而这恰恰是可以被深度强化学习训练的AI所填补的。
对于SLG类游戏AI,一套通用的技术方案如下:
AI Brain(以下简称为AI)以国王的角度负责一个国家的决策,具体到执行时会分化出不同的执政官,如大将军,外交官,总督等;每一位执政官负责游戏内一个领域的决策,大将军负责军事行动,外交官负责国家关系,总督负责城市管理等。
所有执政官使用同一个神经网络模型,朝着共同的目标通力合作,如外交官想要发起宣战,总督会令各个城市开始生产军事资源,并将军事资源集中运输到边境城市,大将军会让军队向两国边境集结,一旦外交官宣战,立刻开始军事行动。