DouZero：通过自我对弈深度强化学习掌握斗地主

创作时间:

2025-01-22 08:38:33

作者:

@小白创作中心

DouZero：通过自我对弈深度强化学习掌握斗地主

游戏常常作为人工智能的基准，因为它们是许多现实世界问题的抽象。在完全信息游戏中已经取得了重大成就。例如，AlphaGo(Silver等,2016)、AlphaZero(Silver等,2018)和MuZero(Schrittwieser等,2020)在围棋游戏中建立了最先进的性能。最近的研究已经演变到更具挑战性的不完全信息游戏，在这些游戏中，代理在部分可观察的环境中相互竞争或合作。从两人游戏（如简单的Leduc扑克和限注/无限注德州扑克）(Zinkevich等,2008; Heinrich & Silver,2016; Moravˇcík等,2017; Brown & Sandholm,2018)到多人游戏（如多人德州扑克(Brown & Sandholm,2019b)、星际争霸(Vinyals等,2019)、DOTA(Berner等,2019)、Hanabi(Lerer等,2020)、麻将(Li等,2020a)、王者荣耀(Ye等,2020b;a)和无通讯外交(Gray等,2020)），都取得了令人鼓舞的进展。

1. 引言

本工作旨在为斗地主构建人工智能程序，斗地主是中国最受欢迎的纸牌游戏，拥有数亿日活跃玩家。斗地主具有两个有趣的特性，给人工智能系统带来了巨大挑战。首先，斗地主中的玩家需要在部分可观察的环境中既相互竞争又相互合作，通信有限。具体来说，两个农民玩家将作为一个团队与地主玩家对抗。扑克游戏中流行的算法，如对抗性遗憾最小化(CFR)(Zinkevich等,2008)及其变体，在这种复杂的三人设置中通常不适用。其次，由于纸牌的组合，斗地主有大量信息集，平均规模很大，且有非常复杂和庞大的动作空间，可能的动作多达104种。