DouZero:通过自我对弈深度强化学习掌握斗地主
创作时间:
2025-01-22 08:38:33
作者:
@小白创作中心
DouZero:通过自我对弈深度强化学习掌握斗地主
游戏常常作为人工智能的基准,因为它们是许多现实世界问题的抽象。在完全信息游戏中已经取得了重大成就。例如,AlphaGo(Silver等,2016)、AlphaZero(Silver等,2018)和MuZero(Schrittwieser等,2020)在围棋游戏中建立了最先进的性能。最近的研究已经演变到更具挑战性的不完全信息游戏,在这些游戏中,代理在部分可观察的环境中相互竞争或合作。从两人游戏(如简单的Leduc扑克和限注/无限注德州扑克)(Zinkevich等,2008; Heinrich & Silver,2016; Moravˇcík等,2017; Brown & Sandholm,2018)到多人游戏(如多人德州扑克(Brown & Sandholm,2019b)、星际争霸(Vinyals等,2019)、DOTA(Berner等,2019)、Hanabi(Lerer等,2020)、麻将(Li等,2020a)、王者荣耀(Ye等,2020b;a)和无通讯外交(Gray等,2020)),都取得了令人鼓舞的进展。
1. 引言
本工作旨在为斗地主构建人工智能程序,斗地主是中国最受欢迎的纸牌游戏,拥有数亿日活跃玩家。斗地主具有两个有趣的特性,给人工智能系统带来了巨大挑战。首先,斗地主中的玩家需要在部分可观察的环境中既相互竞争又相互合作,通信有限。具体来说,两个农民玩家将作为一个团队与地主玩家对抗。扑克游戏中流行的算法,如对抗性遗憾最小化(CFR)(Zinkevich等,2008)及其变体,在这种复杂的三人设置中通常不适用。其次,由于纸牌的组合,斗地主有大量信息集,平均规模很大,且有非常复杂和庞大的动作空间,可能的动作多达104种。
热门推荐
公司合同申请盖章流程与注意事项
宝宝的好奇心很强,家长要警惕耳内异物!
nnScaler:重塑深度学习并行策略,大幅提升训练效率
海南七日游全攻略:八大热门景点与详细行程安排
深度揭秘电容:从原理到作用,电子线路中的关键元件解析
停车位尺寸测量标准与规范详解
遗世独立:三亚南山寺的文化与美食
职工医保“家庭共济”全国已覆盖,怎么办理?
探索文化杂糅 诠释多元文化中的身份认同
鄂州与长沙跨城携手,共铸“鱼水”新传奇
什么是劳动合同审查
国产手术机器人临床应用再创新里程碑,马云涛教授团队图迈
琥珀是如何形成的?揭秘琥珀的形成过程与历史意义
琥珀的形成与科学解析
大明湖景点介绍 风光美如画
爵士乐的类型
眼前一黑、晕倒的原因和预防措施
投资策略的例子:学习投资策略的实际案例和成功经验
如何挑选新鲜百合?百合的食用方法与注意事项
镇江甘露寺铁塔——唯一千年铁塔,凭11颗佛主舍利闻名中外
【悦读】宋·曾巩《甘露寺多景楼》赏析及同步练习
泰国老虎膏的正确使用方法及注意事项
多功能小鼠模型推动人类小胶质细胞移植在神经退行性疾病中的研究
近10年经颅直流电刺激研究热点及趋势
丛集性头痛
2025年汽车以旧换新政策来啦!有哪些变化和利好?
听力守护,幸福晚年——助听器选购与使用心得分享
手泡水后皮肤起皱发白如何处理
吃鱼好处多,但1个部位有毒,最好别吃
寿险渠道专题研究报告:银保篇,推动银保合作向更紧密的模式转型(19页)