问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

Suphx：AI麻将高手的崛起之路

创作时间:

作者:

@小白创作中心

Suphx：AI麻将高手的崛起之路

引用

CSDN

等

10

来源

1.

https://m.blog.csdn.net/sinat_37574187/article/details/144859815

2.

https://blog.csdn.net/weixin_43099039/article/details/139138166

3.

https://blog.csdn.net/gitblog_00063/article/details/139671021

4.

https://blog.csdn.net/weixin_39756314/article/details/144835829

5.

https://reduxinluoshuan.com/companynews/133.html

6.

https://m.xianjichina.com/news/details_195991.html

7.

https://www.microsoft.com/en-us/research/articles/mahjong-ai-suphx/

8.

https://hsingyu.blog/computer-science/Artificial-Intelligence/%E9%BA%BB%E5%B0%87%20AI%20%E5%B0%8D%E5%B1%80/

9.

https://m.aitntnews.com/newDetail.html?newId=6864

10.

https://hub.baai.ac.cn/paper/6a0f75e5-6391-4a27-b46e-8ec25d45042d

2019年3月，一个名为“Suphx”的AI系统悄然登录日本麻将竞技平台“天凤”。在随后的5000余场比赛中，这个由微软亚洲研究院开发的AI系统展现出了惊人的实力，最终达到了十段水平——这是迄今为止世界上唯一达到这一高度的AI系统。

这一突破不仅标志着AI在麻将领域的重大进展，更为解决现实世界中的复杂问题提供了新的思路。

技术突破：深度强化学习的创新应用

Suphx的成功源于其独特的技术架构。研究团队采用了深度强化学习技术，并在此基础上进行了多项创新。

全局奖励预测

麻将游戏的复杂性在于，每局包含多个回合，最终排名由各回合累积得分决定。为了解决这一难题，研究团队设计了一个全局奖励预测器。这个基于两层门控循环单元（GRU）和两个全连接层的循环神经网络，能够预测基于当前和前几轮信息的最终奖励。这种前瞻性的设计为策略网络的训练提供了有效的学习信号。

Oracle指导

麻将是一种典型的不完美信息博弈游戏。每个玩家有13张私人牌，死墙有14张牌，活墙有70张牌，总共超过10^48种不可区分的隐藏状态。为了解决这一挑战，研究团队引入了Oracle指导机制。通过一个可以看到完美信息的Oracle代理，包括其他玩家的私人牌和墙牌，在RL训练过程中，逐步减少完美信息，最终将其转换为仅使用可观察信息的普通代理。这种渐进式的学习方法显著提高了训练效率。

参数化蒙特卡罗策略适应

麻将的复杂规则导致无法直接应用传统的蒙特卡罗树搜索技术。为此，研究团队提出了参数化蒙特卡罗策略适应（pMCPA）方法。在每局开始时，模拟10万条轨迹，并使用基本策略梯度方法对离线训练的策略进行微调。这种在线适应机制使得AI能够在实际游戏中做出更优决策。

麻将AI的挑战与突破

麻将AI的研发面临着诸多挑战：

复杂的计分规则：每局麻将包含多个回合，最终排名由各回合累积得分决定。这种延迟反馈机制使得传统的强化学习方法难以直接应用。
丰富的隐藏信息：每个玩家的私人牌、死墙和活墙中的牌都处于隐藏状态，导致信息的不完全性。
复杂的玩法规则：包括吃、碰、杠等多种动作类型，以及可能打断常规出牌顺序的特殊情况。

Suphx通过创新的技术方案，成功克服了这些挑战。例如，通过全局奖励预测解决了延迟反馈问题；通过Oracle指导应对信息不完全性；通过pMCPA处理复杂的游戏规则。

影响与意义

Suphx的突破不仅局限于麻将领域，其技术原理和方法论对解决现实世界中的复杂问题具有重要启示。

金融市场预测：与麻将类似，金融市场也是一个充满不确定性和不完全信息的领域。Suphx的技术可以应用于金融预测模型，帮助投资者做出更优决策。
物流优化：复杂的物流系统涉及多个变量和不确定性因素。通过类似Suphx的深度强化学习技术，可以优化物流路径和资源分配。
医疗诊断：在医疗领域，AI需要在信息不完全的情况下做出诊断和治疗建议。Suphx的技术框架可以为医疗AI提供参考。

未来展望

尽管Suphx已经取得了令人瞩目的成就，但麻将AI的研究仍处于初级阶段。未来的研究方向可能包括：

改进奖励预测器：考虑更多因素，如通过比较不同玩家的初始手牌来衡量游戏难度。
优化Oracle指导：探索同时训练Oracle代理和普通代理的方法，或设计Oracle评论家以提供更有效的即时反馈。
增强运行时策略适应：在每局中进行多次模拟和适应，进一步提高策略性能。

Suphx的崛起不仅是一个技术突破，更是一个里程碑。它展示了AI在处理复杂不完美信息游戏中的潜力，为未来的研究和应用开辟了新的道路。随着技术的不断进步，我们有理由相信，AI将在更多领域展现出其非凡的能力，为人类社会带来深远的影响。

热门推荐

物理学家声称已经解决了臭名昭著的“祖父悖论”

物理学家声称已经解决了臭名昭著的“祖父悖论”

香港房产的隔音降噪技术在建筑中的应用效果如何？

香港房产的隔音降噪技术在建筑中的应用效果如何？

低代码如何提升开发效率与团队协作

低代码如何提升开发效率与团队协作

吃桂圆的十大禁忌

吃桂圆的十大禁忌

反复呼吸道感染，免疫力不好，如何才能提高免疫力，预防大毛病

反复呼吸道感染，免疫力不好，如何才能提高免疫力，预防大毛病

父母必看！中医教你如何应对孩子呼吸道感染

父母必看！中医教你如何应对孩子呼吸道感染

逍遥丸能让人“逍遥”？原来古人是这样治抑郁症的

逍遥丸能让人“逍遥”？原来古人是这样治抑郁症的

圆锥曲线基础知识

圆锥曲线基础知识

孕期有什么可以替代燕窝的东西？营养师给出的建议在这里

孕期有什么可以替代燕窝的东西？营养师给出的建议在这里

孕妇吃什么滋补品好？

孕妇吃什么滋补品好？

数读英超伤病潮：曼城确实受影响，阿森纳并非最惨的球队？

数读英超伤病潮：曼城确实受影响，阿森纳并非最惨的球队？

电动车起火，责任谁担？

电动车起火，责任谁担？

主动学习（Active Learning）简介综述汇总以及主流技术方案

主动学习（Active Learning）简介综述汇总以及主流技术方案

公司营业执照丢失怎么办？补办流程及注意事项全攻略

公司营业执照丢失怎么办？补办流程及注意事项全攻略

“美日对弈“——静态对比丰田亚洲龙与凯美瑞

“美日对弈“——静态对比丰田亚洲龙与凯美瑞

肠镜检查是否需要麻醉？一文详解无痛肠镜与普通肠镜的区别

肠镜检查是否需要麻醉？一文详解无痛肠镜与普通肠镜的区别

无痛全麻肠镜的害处有哪些

无痛全麻肠镜的害处有哪些

便秘的分型与治疗方药

便秘的分型与治疗方药

《六姊妹》编剧伊北：普通家庭50年光阴自然成为历史的叙述

《六姊妹》编剧伊北：普通家庭50年光阴自然成为历史的叙述

魔芋有毒吗，食用前怎么处理？

魔芋有毒吗，食用前怎么处理？

探究茶多酚对脂肪分解作用的科学解析

探究茶多酚对脂肪分解作用的科学解析

公孙瓒的武力评价与称霸潜力分析

公孙瓒的武力评价与称霸潜力分析

一套拿来即用体能课静态拉伸&动态拉伸动作

一套拿来即用体能课静态拉伸&动态拉伸动作

农民法律援助的申请指南

农民法律援助的申请指南

神经网络权重矩阵初始化：策略与影响

神经网络权重矩阵初始化：策略与影响

Web项目点赞功能实现指南

Web项目点赞功能实现指南

家用烤箱清洁秘籍：简单步骤高效解决，让你的烤箱焕然一新

家用烤箱清洁秘籍：简单步骤高效解决，让你的烤箱焕然一新

如何查询养老金缴费基数：法律依据与操作指南

如何查询养老金缴费基数：法律依据与操作指南

研究发现：国内C刊与国外一流人文期刊的5大区别

研究发现：国内C刊与国外一流人文期刊的5大区别

夜间保养很重要！肌肤重生的秘密，睡前保养顺序、细节一次学！

夜间保养很重要！肌肤重生的秘密，睡前保养顺序、细节一次学！

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号