问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

不只是下棋!游戏AI如何解决现实世界的难题?

创作时间:
作者:
@小白创作中心

不只是下棋!游戏AI如何解决现实世界的难题?

引用
1
来源
1.
https://research.sinica.edu.tw/ai-game-deep-reinforcement-learning-ti-rong-wu/

从AlphaGo战胜李世石开始,人工智能在棋类游戏中的突破引发了全球关注。如今,这些技术不仅停留在游戏领域,更被广泛应用于现实世界的各种问题解决中。本文将带你深入了解游戏AI的发展历程及其在现实世界中的应用。

2016年3月,电脑围棋软件AlphaGo与韩国职业九段棋士李世乭展开了一系列对弈,五场比赛中仅输了一场,最终以四胜一败之姿赢得了比赛。这一胜利不仅宣告着人工智能终于征服了最艰难的棋类游戏,也为人类与人工智能的对决暂时划下了一个句点。


AlphaGo与李世乭第一场对弈的最后局面,这场比赛由AlphaGo获胜(白子),李世乭在尚余约28分钟时投子认输。资料来源:Google DeepMind

当时,吴迪融博士正在研究室探索围棋AI的相关研究,也为这个突破感到十分振奋。他笑说,自己从小便因动漫《棋灵王》的影响而学习围棋,直到研究所后,找到一位做棋类AI的老师,才得以结合自己兴趣,开始研究围棋AI。谁知研究到一半,超强的AlphaGo就这样横空出世,将AI带入了一个全新的纪元。

AlphaGo的成功秘诀

那么,为什么AlphaGo能取得如此重大的突破呢?吴迪融博士解释,其中的关键,便在于AlphaGo将“深度学习”结合到了原本的围棋AI之中。所谓“深度学习”听起来虽难,但相关应用在我们的生活中可谓无处不在,在影像类的发展尤为成熟。

比如说,假设今天突然想找一张可爱小狗的照片,我们只需在手机相簿里搜索“狗”,手机便能帮我们找出所有含有狗的照片。这简单操作的背后,其实正是靠深度学习的帮助,让电脑判断单张照片中是狗、是猫、是景色的几率分别是多少,藉由内部的神经网络抓取事物特征,找出最符合搜索需求的结果。

而AlphaGo在做的事情,便是延伸这样概念,只不过将影像转换为棋盘类游戏,我们输入的资讯不再是猫咪狗狗的照片,而是棋盘的盘面。接着,再让电脑透过“策略网络”:判断职业棋手会在该盘面的哪个位置出手;以及“价值网络”:下在该位置的胜率为多少,去做出相关决策。

不过,如果只能做到这样还不够。吴迪融博士提到,AlphaGo的第二个特点在于,可以判断职业棋手下在各个位置的几率,如果几率太低的选择,就不用特别考虑,如此一来,便不用逐步“穷举”出所有结果,而能较为深入地分析后续盘面的变化,让整体判断更加精准又收敛。

AI还在继续变强吗?

“AlphaGo Zero”与“AlphaGo”最大的不同点,在于学习对象的不同。过去,AlphaGo是在向人类最顶尖的棋士学习,而如今,它本身已经足够厉害,AlphaGo Zero便直接跳过了跟人类学习的步骤,而是尝试自我对弈(Self Play),想象一下:当黑棋是非常强的AlphaGo、白棋也是非常强的AlphaGo,两边互相对抗、学习,那训练出来的AlphaGo Zero可就不只是2倍的加乘强度,更有可能是20倍、100倍的强度以上。

吴迪融博士补充道,在自我对弈方面,AI如果从头自学者,反而会比跟人类学还要更精准。Google的研究团队曾经想直接用打败李世石的AlphaGo版本往下进行自我对弈训练,结果发现,一开头就跟人类下棋的AI,也容易学习到人类的一些认知误区,反而是让AI从头自学者,可以跳脱人类框架,得到更好的解答。

换言之,在棋类AI训练上,人类范本已经没什么用武之地了。后来开发出的“Alpha Zero”的逻辑与“AlphaGo Zero”类似,除了围棋之外,还将学习范围拓展到了西洋棋和将棋。


AlphaGo的成功,在于使用了深度学习与强化学习,让AI可以不断从反馈奖励中学习。并且在策略上采用更有效率的蒙特卡洛树搜索法,改善AI的判断能力。图:研之有物(资料来源:吴迪融)

但这还不是终点。DeepMind后来更开发出了“MuZero”,可以在不给游戏规则情况下,让AI自己学会围棋、西洋棋、将棋,还有多款Atari主机游戏的规则。吴迪融博士强调,从MuZero就可以看到发展游戏AI的优势,因为它的训练不需要跟环境互动,而是另外训练了一个深度学习的神经网络,用来模拟现实环境,因此,在应用于解决实际问题时,也可以减少许多不必要的损耗。像是我们想要训练无人机时,与其打造多架无人机去测试、碰撞,倒不如将整个驾驶过程变成算法,在模拟器中学习、互动与精进。


MuZero的训练,已经不需要跟真实环境互动,而是另外训练了一个深度学习的神经网络,用来模拟现实环境。因此,在应用于解决实际问题时,也可以减少许多不必要的损耗。图:Google DeepMind

游戏AI真正想解决的是现实问题

感受到了吗?同样是在训练,实体训练时我们可能会受限于时间、空间、天气等等环境因素,但这些在游戏世界中都能被一一解决,甚至可以达到接近无损耗的“0成本”境界。而这项优势,也正是吴迪融与团队之所以持续钻研围棋AI的原因。吴迪融解释,他们研究AI算法平台“CGI围棋智慧”,并非是想要将围棋AI做到最强,也不是为了追求传说中的“神之一手”。

我们是希望,可以藉由围棋AI这个游戏环境来探索AI的各种可能性。

其实,目前在做游戏或棋类AI的团队都有相似的目标,并不完全是为将游戏本身玩到顶点,而是希望可以开发出通用的算法,可以应用到其他地方,为人类解释现实中的问题。事实上,有些应用早已出现我们的生活当中。吴迪融举例,我们平常爱看的YouTube,在影片压缩时就有采用MuZero的技术。透过MuZero的计算和判断,不仅可降低YouTube的营运成本,也有机会大幅节省网络流量。

不断精进的“CGI围棋智慧”

想要解决人类真实的问题,那么,就得打破一些围棋AI本身的限制。比如说,其中一大限制就在于,会自带一套“贴目逻辑”,以AlphaGo来说,就是固定贴7.5目。

这是什么意思呢?围棋的规则为黑棋先下,而先下者会有优势,所以在最后计算时,黑棋就得“贴目”:扣掉一些目数或子数,以求公平。只是,贴目的规则随着不同国家也有所不同,中国通常会贴7.5目,而日韩多贴6.5目。但如果一开始就设定好AI的贴目规则,那后期想要改变就会非常困难。

为了解决这项难题,吴迪融与研究团队为“CGI围棋智慧”开发出“多标签价值网络”,可以将各种贴目情形“例如贴-12.5、1.5、……、27.5”下的胜率统统算出来,这样的“多任务学习”,除了打破了既有限制,更能协助提升AI本身的棋力,如今,多标签价值网络已经成为围棋AI的常用设定。


吴迪融团队持续探索游戏与围棋AI,希望找到更多人工智能的可能性。图:研之有物

围棋AI自我训练的另一项限制,在于很容易陷入自身的盲点,想不出更好的下法。那该怎么解决呢?团队提出了“超参数自动优化方法”,同时用不同的超参数训练多个AlphaGo AI、增加乱度,再随机挑出几个互博,留下最强的,再进行下一轮对战。咦?增加多样性来提升存活机会,听起来是不是有点像“物竞天择、适者生存”的味道呢?

围棋AI的另一个挑战处在于本身的规则较为复杂,重点在于“围地”,而不只是要在盘面上拥有更多棋子,因此很难在中间轻易确认输赢。那该怎么解决呢?可以运用数学统计上的“蒙特卡洛方法”(Monte Carlo method)来解答,先把需要统计的目标划出来,然后让电脑随机且大量地射出飞镖,最后透过真正中靶的部分,去估算相关数值。

而在“CGI围棋智慧”上,研究团队进一步使用“蒙特卡洛树搜索”算法(Monte Carlo tree search),可以得出来各种盘面的胜率,并藉此去设定不同强度的围棋AI。比起“百战百胜”的超强存在,能够随棋士程度调整、可以和棋士互有胜负的围棋AI反而能成为绝佳的围棋助教。更有趣的是,我们也可以反过来,透过让棋士跟AI对弈,来推测棋士本身的棋力(Elo rating)。


如何让围棋AI成为适合练习的对手?调整难度的功能非常重要。吴迪融团队成功发展出四个CGI版本,可以让不同棋力的选手练习。图:研之有物(资料来源:吴迪融)

打破限制,追求完美解

打破了种种限制,追求之路却仍未结束。以AlphaGo来说,思考策略时主要偏向启发法(Heuristic)而非精准解答,虽然在对弈时多有胜算,但如果在现实生活中,我们可不希望AI会忽然出现错误,假如我们在制造芯片时,万一放错位置,可能就是千万以上的损失,正因如此,找出完美解就变得非常重要。

现在,吴迪融与团队便在寻找“7×7”棋盘范围内的完美解答(Solving a game),困难度更甚于精通游戏(Mastering a game)。目前,团队已经开发出新型在线学习方法,可以挑出AlphaGo较为弱势的部分,直接进行“动态增强”,大幅减少训练时间,而这些被挑出来的误区,也可以让我们更理解AI,在可解释性上面获得新的突破。

至于这个超强系统能在何时真正协助AI在各种优秀解答中找出最佳解?还有待团队继续钻研。

AI的可解释性更重要

除了以“超参数自动优化方法”来改进AI算法、以在线学习来增加AI的可解释性,吴迪融分享到,团队的另一大重点在于,将AI作为助人学习的工具。怎么让AI帮助学习呢?可以透过程度控制来辅助人类,也可以串联ChatGPT等语言模型,来解释、帮助人类理解AI下棋策略背后的逻辑。

未来,AI的应用范围可能非常广泛,但如果只是知其然而不知其所以然,容易造成隐患,比如像是军事国防上,如果一味信任AI的防守策略,却不去理解策略背后的缘由,可能就不会发现AI的盲点,因而造成后续的损失。吴迪融认为,AI发展至今已经十分强大,而在下一个阶段,真正理解AI、读懂机器逻辑将是关键,也因此,AI的“可解释性”相关研究十分重要。

怎么从AI的脑袋变出我们人类听得懂的话,这其实是个非常非常大的挑战。

接下来,吴迪融期待团队能在算法上持续精进,也希望研究成果可以用于更多现实场景,比如工业排程、道路规划等等。最后,也期待能透过与棋士的合作及其他方法,将AI拥有的知识透过人类能懂的方式,解释出来。

问答环节

您进行研究之后,会跟AI下棋吗?棋力有大幅进步吗?

一开头的时候会下,但后来下不赢就不下了(笑)。

研究团队成员都需要会下棋吗?

早期研究棋类AI通常需要有相关知识,才可以判断结果并理解研究,但现在的AI通用性愈来愈高,所以不一定要会围棋也可以做。只是对于做研究的学生来说,通常还是会喜欢看得懂的东⻄,如果完全没接触过,他可能看不懂AI在进步的感觉,就没有办法体会长到那个感动的部分。

游戏AI(例如MuZero)出来之后,原本的棋类AI(例如AlphaZero)会被完全取代吗?

首先,AlphaZero与MuZero出来后,的确许多传统的棋类AI方法都渐渐被取代,毕竟AlphaZero与MuZero可以自动探索出超越人类知识的学习方法,实在太方便了!

然而,MuZero并不会完全取代AlphaZero,因为MuZero需要依赖AI自行学会环境规则,所以在一些复杂的环境下,会需要比AlphaZero花费更多的学习时间。

目前有研究说,如果大型语言模型或图片生成AI只靠自我学习会崩潰。为什么围棋AI不会这种情况呢?

围棋因为有绝对的胜负,只要把一盘棋完整下完,根据规则一定可以得到一方获胜以及一方失败,所以AI可以不断利用自我对弈来学习比较好的走法。

但对大型语言模型或是图片生成的AI,这类型的东⻄并没有一个绝对的标准,像是一篇文章或图片的好坏很难清楚定义出来,不同的人可能也会有不同的观点或想法。

因此我们很难用类似围棋的方式去制定出一个标准(如围棋的胜负),这也造成了在大型语言模型条件下,如果要让AI不断的自我学习,它会比较难有一个明确的目标去学习,最终可能会学习出我们无法预期的结果。

注1:神经网络是模仿大脑神经链接的复杂数学函数,为深度学习算法的运作核心。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号