对抗性遗憾最小化：扑克AI战胜职业选手的核心技术

创作时间:

作者:

@小白创作中心

对抗性遗憾最小化：扑克AI战胜职业选手的核心技术

引用

CSDN

https://blog.csdn.net/weixin_36829761/article/details/140573503

近年来，人工智能领域取得了令人惊叹的进展。在图像处理和语音识别等领域取得重大突破的同时，人工智能在各种游戏中战胜人类的成就也引起了广泛关注。尤其是2016年AlphaGo击败韩国围棋大师李世石，标志着AI在围棋领域首次超越人类，成为继1997年深蓝战胜国际象棋大师卡斯帕罗夫之后，AI发展史上又一个里程碑时刻。与此同时，来自美国、加拿大、捷克和芬兰的一群研究人员正在致力于解决另一个游戏：无限注德州扑克。经过多年努力，他们终于在扑克AI领域取得重大突破。本文将详细介绍扑克AI的核心技术——对抗性遗憾最小化（CFR），以及基于该技术的几个著名扑克AI系统。

Cepheus：首个解决限注德州扑克的AI

2015年，Oskari Tammelin、Neil Burch、Michael Johanson和Michael Bowling等人开发出名为Cepheus的计算机程序，这是首个能够解决限注德州扑克的AI。他们发表了两篇具有里程碑意义的论文：《解决限注德州扑克》和《限注德州扑克已被解决》。

虽然论文标题宣称"解决"了扑克，但从严格意义上讲，Cepheus是对扑克的"本质解决"。这意味着研究人员能够得到一个近似的纳什均衡策略，在人类一生的时间范围内，该策略与理论上的最优策略是无法区分的。在双人零和博弈中，如果不知道对手的具体策略，采用纳什均衡策略是最优选择。

DeepStack：首个在一对一无限注德州扑克中战胜职业玩家的AI

2017年，DeepStack由阿尔伯塔大学的研究团队开发，这是首个在一对一无限注德州扑克中战胜职业玩家的AI。DeepStack采用了基于遗憾最小化的算法，但与Cepheus不同的是，它使用了一种称为"反事实遗憾最小化"（CFR）的在线算法。这种算法允许DeepStack在每一轮游戏中实时调整策略，而不是预先计算整个游戏树。

DeepStack的核心创新在于其"抽象化"技术。由于无限注德州扑克的状态空间过于庞大，DeepStack通过创建一个更小的"抽象"游戏来简化问题。在实际游戏中，DeepStack会将当前状态映射到抽象游戏中的相应状态，并使用预先计算的策略来做出决策。这种抽象化技术使得DeepStack能够在有限的计算资源下实现高性能。

Libratus：首个在多人无限注德州扑克中战胜职业玩家的AI

2017年，卡内基梅隆大学开发的Libratus在为期20天的比赛中，以177万美元筹码的优势战胜了四位顶级职业扑克选手。Libratus采用了更先进的算法，包括"动态抽象"和"自我博弈"。与DeepStack的静态抽象不同，Libratus能够根据对手的玩法动态调整抽象层次，从而更好地适应不同的对手。

Libratus的另一个重要创新是其"自我博弈"能力。在比赛前，Libratus通过与自己进行数百万次对局来优化策略。这种自我博弈过程类似于AlphaGo中的强化学习，但Libratus使用的是CFR算法。通过自我博弈，Libratus能够发现并利用对手策略中的弱点，从而在比赛中占据优势。

对抗性遗憾最小化（CFR）算法

对抗性遗憾最小化（CFR）是扑克AI的核心算法。该算法的基本思想是在每一轮游戏中，AI会评估其在所有可能行动上的表现，并计算每个行动的"遗憾值"。遗憾值表示如果AI选择了其他行动，可能会获得多少额外收益。通过不断迭代和更新策略，CFR算法能够逐渐减少这些遗憾值，从而逼近纳什均衡策略。

CFR算法的一个关键优势是其能够处理不完美信息博弈。在扑克游戏中，玩家无法看到对手的手牌，这使得游戏具有高度的不确定性。CFR算法通过考虑所有可能的信息集和对手的可能行动，能够在不完美信息的情况下做出最优决策。

结语

扑克AI的发展展示了人工智能在处理复杂决策问题方面的巨大潜力。从Cepheus到DeepStack再到Libratus，这些AI系统不仅在扑克游戏中取得了突破，更为解决现实世界中的不完美信息博弈问题提供了新的思路和方法。随着算法的不断优化和计算能力的提升，未来的人工智能有望在更多领域实现超越人类的成就。

本文原文来自CSDN

热门推荐

卵圆孔未闭做什么检查可以查出来