DouZero:通过自我对弈深度强化学习掌握斗地主
创作时间:
2025-01-22 08:38:33
作者:
@小白创作中心
DouZero:通过自我对弈深度强化学习掌握斗地主
游戏常常作为人工智能的基准,因为它们是许多现实世界问题的抽象。在完全信息游戏中已经取得了重大成就。例如,AlphaGo(Silver等,2016)、AlphaZero(Silver等,2018)和MuZero(Schrittwieser等,2020)在围棋游戏中建立了最先进的性能。最近的研究已经演变到更具挑战性的不完全信息游戏,在这些游戏中,代理在部分可观察的环境中相互竞争或合作。从两人游戏(如简单的Leduc扑克和限注/无限注德州扑克)(Zinkevich等,2008; Heinrich & Silver,2016; Moravˇcík等,2017; Brown & Sandholm,2018)到多人游戏(如多人德州扑克(Brown & Sandholm,2019b)、星际争霸(Vinyals等,2019)、DOTA(Berner等,2019)、Hanabi(Lerer等,2020)、麻将(Li等,2020a)、王者荣耀(Ye等,2020b;a)和无通讯外交(Gray等,2020)),都取得了令人鼓舞的进展。
1. 引言
本工作旨在为斗地主构建人工智能程序,斗地主是中国最受欢迎的纸牌游戏,拥有数亿日活跃玩家。斗地主具有两个有趣的特性,给人工智能系统带来了巨大挑战。首先,斗地主中的玩家需要在部分可观察的环境中既相互竞争又相互合作,通信有限。具体来说,两个农民玩家将作为一个团队与地主玩家对抗。扑克游戏中流行的算法,如对抗性遗憾最小化(CFR)(Zinkevich等,2008)及其变体,在这种复杂的三人设置中通常不适用。其次,由于纸牌的组合,斗地主有大量信息集,平均规模很大,且有非常复杂和庞大的动作空间,可能的动作多达104种。
热门推荐
古代金属的使用:七种金银铜铁锡铅汞
四川地名:藏着深厚的历史文化内涵
如何构建有效的研发沟通机制
从零开始:新手如何成功申请2024年广交会临时证、采购证与参展证
掌握时间序列特征工程:常用特征总结与 Feature-engine 的应用
【吉他五线谱教学:开启音乐之旅】
超车、跟车,这些事不要做
航空航天制造业企业需要取得的认证
昆明适合长期居住吗?海拔1891米的昆明,长期居住需要注意什么?
如何做好体重管理项目
养肝护肝吃什么最好 养肝护肝的原则
远离“肝”扰,专家教你这样守护“小心肝”!
劳动合同书写指南:合同中需要包含的关键要素
怎样清理花卉叶面
平板绘画与电脑绘画优缺点
百济神州高玉娟:单臂和开放标签临床试验实操与考量丨附实际案例
义乌市历史沿革与行政区划变迁
婴儿慢性腹泻的原因及处理方法
蒙脱石散为什么不建议长期使用
内存通道越多效率越高吗
前端如何展示能力
当前农历日期为几月几号如何确认 农历时间轻松查无烦恼
保险0免赔是什么意思?是好还是不好?
在充满变革的世界中生存,企业必须采取的六项韧性战略
奋进中的新疆塔城:依托能源逆势突围 产业升级蓄势起飞
揭秘沸水浴加热回流装置的神奇作用
肠系膜淋巴结炎能喝酸奶吗
沙司的起源与历史演变
电池电压如何进行测试?测试电池电压有哪些要点?
外贸平台怎样成功申请出口退税?跨境电商退税申请的关键问题