问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

Suphx:AI麻将高手的崛起之路

创作时间:
作者:
@小白创作中心

Suphx:AI麻将高手的崛起之路

引用
CSDN
10
来源
1.
https://m.blog.csdn.net/sinat_37574187/article/details/144859815
2.
https://blog.csdn.net/weixin_43099039/article/details/139138166
3.
https://blog.csdn.net/gitblog_00063/article/details/139671021
4.
https://blog.csdn.net/weixin_39756314/article/details/144835829
5.
https://reduxinluoshuan.com/companynews/133.html
6.
https://m.xianjichina.com/news/details_195991.html
7.
https://www.microsoft.com/en-us/research/articles/mahjong-ai-suphx/
8.
https://hsingyu.blog/computer-science/Artificial-Intelligence/%E9%BA%BB%E5%B0%87%20AI%20%E5%B0%8D%E5%B1%80/
9.
https://m.aitntnews.com/newDetail.html?newId=6864
10.
https://hub.baai.ac.cn/paper/6a0f75e5-6391-4a27-b46e-8ec25d45042d

2019年3月,一个名为“Suphx”的AI系统悄然登录日本麻将竞技平台“天凤”。在随后的5000余场比赛中,这个由微软亚洲研究院开发的AI系统展现出了惊人的实力,最终达到了十段水平——这是迄今为止世界上唯一达到这一高度的AI系统。

这一突破不仅标志着AI在麻将领域的重大进展,更为解决现实世界中的复杂问题提供了新的思路。

技术突破:深度强化学习的创新应用

Suphx的成功源于其独特的技术架构。研究团队采用了深度强化学习技术,并在此基础上进行了多项创新。

全局奖励预测

麻将游戏的复杂性在于,每局包含多个回合,最终排名由各回合累积得分决定。为了解决这一难题,研究团队设计了一个全局奖励预测器。这个基于两层门控循环单元(GRU)和两个全连接层的循环神经网络,能够预测基于当前和前几轮信息的最终奖励。这种前瞻性的设计为策略网络的训练提供了有效的学习信号。

Oracle指导

麻将是一种典型的不完美信息博弈游戏。每个玩家有13张私人牌,死墙有14张牌,活墙有70张牌,总共超过10^48种不可区分的隐藏状态。为了解决这一挑战,研究团队引入了Oracle指导机制。通过一个可以看到完美信息的Oracle代理,包括其他玩家的私人牌和墙牌,在RL训练过程中,逐步减少完美信息,最终将其转换为仅使用可观察信息的普通代理。这种渐进式的学习方法显著提高了训练效率。

参数化蒙特卡罗策略适应

麻将的复杂规则导致无法直接应用传统的蒙特卡罗树搜索技术。为此,研究团队提出了参数化蒙特卡罗策略适应(pMCPA)方法。在每局开始时,模拟10万条轨迹,并使用基本策略梯度方法对离线训练的策略进行微调。这种在线适应机制使得AI能够在实际游戏中做出更优决策。

麻将AI的挑战与突破

麻将AI的研发面临着诸多挑战:

  • 复杂的计分规则:每局麻将包含多个回合,最终排名由各回合累积得分决定。这种延迟反馈机制使得传统的强化学习方法难以直接应用。
  • 丰富的隐藏信息:每个玩家的私人牌、死墙和活墙中的牌都处于隐藏状态,导致信息的不完全性。
  • 复杂的玩法规则:包括吃、碰、杠等多种动作类型,以及可能打断常规出牌顺序的特殊情况。

Suphx通过创新的技术方案,成功克服了这些挑战。例如,通过全局奖励预测解决了延迟反馈问题;通过Oracle指导应对信息不完全性;通过pMCPA处理复杂的游戏规则。

影响与意义

Suphx的突破不仅局限于麻将领域,其技术原理和方法论对解决现实世界中的复杂问题具有重要启示。

  • 金融市场预测:与麻将类似,金融市场也是一个充满不确定性和不完全信息的领域。Suphx的技术可以应用于金融预测模型,帮助投资者做出更优决策。
  • 物流优化:复杂的物流系统涉及多个变量和不确定性因素。通过类似Suphx的深度强化学习技术,可以优化物流路径和资源分配。
  • 医疗诊断:在医疗领域,AI需要在信息不完全的情况下做出诊断和治疗建议。Suphx的技术框架可以为医疗AI提供参考。

未来展望

尽管Suphx已经取得了令人瞩目的成就,但麻将AI的研究仍处于初级阶段。未来的研究方向可能包括:

  • 改进奖励预测器:考虑更多因素,如通过比较不同玩家的初始手牌来衡量游戏难度。
  • 优化Oracle指导:探索同时训练Oracle代理和普通代理的方法,或设计Oracle评论家以提供更有效的即时反馈。
  • 增强运行时策略适应:在每局中进行多次模拟和适应,进一步提高策略性能。

Suphx的崛起不仅是一个技术突破,更是一个里程碑。它展示了AI在处理复杂不完美信息游戏中的潜力,为未来的研究和应用开辟了新的道路。随着技术的不断进步,我们有理由相信,AI将在更多领域展现出其非凡的能力,为人类社会带来深远的影响。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号