DouZero:通过自我对弈深度强化学习掌握斗地主
创作时间:
2025-01-22 08:38:33
作者:
@小白创作中心
DouZero:通过自我对弈深度强化学习掌握斗地主
游戏常常作为人工智能的基准,因为它们是许多现实世界问题的抽象。在完全信息游戏中已经取得了重大成就。例如,AlphaGo(Silver等,2016)、AlphaZero(Silver等,2018)和MuZero(Schrittwieser等,2020)在围棋游戏中建立了最先进的性能。最近的研究已经演变到更具挑战性的不完全信息游戏,在这些游戏中,代理在部分可观察的环境中相互竞争或合作。从两人游戏(如简单的Leduc扑克和限注/无限注德州扑克)(Zinkevich等,2008; Heinrich & Silver,2016; Moravˇcík等,2017; Brown & Sandholm,2018)到多人游戏(如多人德州扑克(Brown & Sandholm,2019b)、星际争霸(Vinyals等,2019)、DOTA(Berner等,2019)、Hanabi(Lerer等,2020)、麻将(Li等,2020a)、王者荣耀(Ye等,2020b;a)和无通讯外交(Gray等,2020)),都取得了令人鼓舞的进展。
1. 引言
本工作旨在为斗地主构建人工智能程序,斗地主是中国最受欢迎的纸牌游戏,拥有数亿日活跃玩家。斗地主具有两个有趣的特性,给人工智能系统带来了巨大挑战。首先,斗地主中的玩家需要在部分可观察的环境中既相互竞争又相互合作,通信有限。具体来说,两个农民玩家将作为一个团队与地主玩家对抗。扑克游戏中流行的算法,如对抗性遗憾最小化(CFR)(Zinkevich等,2008)及其变体,在这种复杂的三人设置中通常不适用。其次,由于纸牌的组合,斗地主有大量信息集,平均规模很大,且有非常复杂和庞大的动作空间,可能的动作多达104种。
热门推荐
解除劳动合同报告书:如何合法合规撰写与注意事项
植物病害基础知识
MT/s 与 MHz,谁是真正内存性能单位?
MT/s 与 MHz,谁是真正内存性能单位?
冷却液的检查与更换指南
谷子经济彻底火了:农业新时代的繁荣篇章
河北阜城推广旱作雨养项目 种植谷子助农每亩增收千元
工伤证人证言范本及工伤认定所需证据材料详解
夏利车座套对座椅保护作用大吗?
过高水温泡茶影响口感与营养价值
如何准确鉴定房屋?鉴定房屋时要关注哪些方面?
和田玉五行属性水晶:颜色、含义以及五行属性解析
八字命理新手教程之藏干:概念、作用与应用
将军肚怎么减下去?6种运动方法+3个饮食建议,轻松告别腹部肥胖
护校安园丨全方位守护 共筑校园安全防线
非标自动化设备:结构、使用规范与维护保养指南
金华东阳:养老新举措,幸福养老成色足
公司买房与个人买房的区别及利弊分析
守护你的“指尖美学”,指甲油和美甲贴也有大讲究
收藏这篇“穿戴甲”科普贴,让你的指尖闪出秋日灿烂
治便秘最好的运动
钙片什么时候吃最好?医生解析最佳服用时间
劳动部工作总结如何整理
夜间会车灯光使用规范:避免远光灯滥用引发的安全隐患
与非机动车会车时的灯光使用规范
如何用C语言判断正负
设备全生命周期管理的八大要点
美联储加息对黄金价值的影响机制及投资策略分析
农业创新助力粮食安全:饲料粮供给的新突破
如何在保密协议中避免信息的滥用