DouZero:通过自我对弈深度强化学习掌握斗地主
创作时间:
2025-01-22 08:38:33
作者:
@小白创作中心
DouZero:通过自我对弈深度强化学习掌握斗地主
游戏常常作为人工智能的基准,因为它们是许多现实世界问题的抽象。在完全信息游戏中已经取得了重大成就。例如,AlphaGo(Silver等,2016)、AlphaZero(Silver等,2018)和MuZero(Schrittwieser等,2020)在围棋游戏中建立了最先进的性能。最近的研究已经演变到更具挑战性的不完全信息游戏,在这些游戏中,代理在部分可观察的环境中相互竞争或合作。从两人游戏(如简单的Leduc扑克和限注/无限注德州扑克)(Zinkevich等,2008; Heinrich & Silver,2016; Moravˇcík等,2017; Brown & Sandholm,2018)到多人游戏(如多人德州扑克(Brown & Sandholm,2019b)、星际争霸(Vinyals等,2019)、DOTA(Berner等,2019)、Hanabi(Lerer等,2020)、麻将(Li等,2020a)、王者荣耀(Ye等,2020b;a)和无通讯外交(Gray等,2020)),都取得了令人鼓舞的进展。
1. 引言
本工作旨在为斗地主构建人工智能程序,斗地主是中国最受欢迎的纸牌游戏,拥有数亿日活跃玩家。斗地主具有两个有趣的特性,给人工智能系统带来了巨大挑战。首先,斗地主中的玩家需要在部分可观察的环境中既相互竞争又相互合作,通信有限。具体来说,两个农民玩家将作为一个团队与地主玩家对抗。扑克游戏中流行的算法,如对抗性遗憾最小化(CFR)(Zinkevich等,2008)及其变体,在这种复杂的三人设置中通常不适用。其次,由于纸牌的组合,斗地主有大量信息集,平均规模很大,且有非常复杂和庞大的动作空间,可能的动作多达104种。
热门推荐
中国古代四大发明:从偶然发现到改变世界
奶奶去世,出嫁孙女随礼多少合适?
雨带北移,长江一带需警惕!暴雨洪水如何应对?
亚马逊双劫:气候变化带来洪水和干旱
世界上最大的平原:亚马逊平原
撒哈拉沙漠有多深?地下蕴藏哪些资源?
古诗词中的“寒”字,竟然这么美?
减肥也能吃肉?这八道菜让你健康瘦身
《亮剑》之后,这些抗日战争剧不容错过
抗日战争:重塑中日关系的关键节点
晚上嗓子干痒?这些原因和解决方案请收好
秋冬嗓子痒?当心过敏性咽炎!
中医治疗喉咙痒和咳嗽:从辨证施治到养生调护
潘宏训的狗名大赏,揭秘社交媒体上的萌宠潮流
智能驾驶呈现加速发展态势
2024年最旺小狗名字,你Pick哪一个?
长白山最新开放攻略:哪些景点值得打卡?
2024上海茶文化节推出十条“最美茶乡之旅” 喜茶创新发布六条茶旅新线路
牙膏可以带上飞机吗?这事儿你得搞清楚,不然安检可就尴尬了!
茶艺师教你在家玩转茶艺:六大茶类冲泡技巧全攻略
骨折急救常识: 如何在第一时间正确处理骨折
孙怀生的喷火绝技:一门传承千年的非遗艺术正谋求新生
黎族钻木取火技艺:非遗保护的新篇章
更年期血压不稳定?教你几招稳稳当当!
重庆开埠口岸:龙门浩老街——建筑瑰宝与文化传承
武汉驾照学法减分新规上线!最高可减6分
学法减分新政策,驾照也能“回血”啦!
Word文档插入对号的六种神操作,总有一种让你惊艳!
Windows vs Mac:谁家输入对号更快?
Word/WPS高效输入对号的小窍门