北大光华彭一杰团队论文荣获IJOC杰出论文奖
北大光华彭一杰团队论文荣获IJOC杰出论文奖
近日,国际管理科学与运筹学领域的顶级期刊之一、国际运筹学与管理科学学会(INFORMS)旗下权威期刊INFORMS Journal on Computing(IJOC)公布了2024年度Meritorious Papers(杰出论文)获奖名单。由北京大学光华管理学院副教授彭一杰与美国佐治亚理工大学工业与系统工程系博士生刘啸天、北京大学光华管理学院博士后张公伯、博士生周睿涵共同完成的论文“An Efficient Node Selection Policy for Monte Carlo Tree Search with Neural Networks”(《基于神经网络的蒙特卡洛树搜索高效节点选择策略》)成功入选,成为IJOC此奖项2024年度唯一获奖论文。该奖项旨在表彰在运筹学与计算科学领域具有突出理论创新与实践价值的顶尖研究成果。
论文简介
近年来,在供应链管理、制造业和机器人控制等各个领域出现了大规模决策问题。通常,这些问题的挑战在于在大的动作空间中识别最优动作,这对于大多数传统的基于解搜索的方法来说是难以计算的。作为一种基于仿真的算法,蒙特卡罗树搜索(MCTS)因其在计成本可控的情况下的渐进最优性而越来越受到人们的欢迎。
在此基础上,AlphaGo的成功引发了一种新的趋势,即在MCTS中加入用神经网络 (Neural Networks, NN) 构建的价值网络和策略网络 (NN-MCTS)。
NN-MCTS
此论文创新性地将多排序选择(R&S)问题框架引入MCTS,提出渐进最优树分配策略(AOAT),显著提升了搜索效率与决策准确性。AOAT有效地分配有限的搜索资源,以最大化正确选择最佳动作的概率。NN-MCTS中的价值网络和策略网络分别通过提供先验知识和指导最终动作的选择提高AOAT策略的性能。在两个棋盘游戏和OpenAI任务上的数值实验表明,该方法优于AlphaGo Zero和MuZero中广泛使用的UCT策略。此外,此研究同时反映了将R&S方法应用于NN-MCTS中实现节点选择的潜力,进而为开发更高效的基于搜索的强化学习算法提供了新的思路和方向。
在井字棋下的实验结果:
基于AOAT的节点选择策略优于UCT
在五子棋下的实验结果
在强化学习任务CartPole下的实验结果
这项研究揭示了将动态仿真资源分配策略扩展为MCTS中节点选择策略的潜力,该研究得到国家自然科学基金杰出青年科学基金、原创探索项目的资助。应用这种新的蒙特卡洛树搜索方法来解决大规模决策问题值得进一步深入研究。
教授简介
彭一杰,北京大学光华管理学院副教授,博士生导师。北京大学人工智能研究院、国家健康医疗大数据研究院兼职研究员。本科毕业于武汉大学数学与统计学院,从复旦大学管理学院获博士学位。在美国马里兰大学和乔治梅森大学分别从事过博士后与助理教授工作。主要研究方向包括仿真建模与优化、金融工程与风险管理、人工智能、健康医疗等。主持国家自然科学基金委优秀青年科学基金、原创探索计划、杰出青年科学基金等。在Operations Research,INFORMS Journal on Computing和IEEE Transactions on Automatic Control等高质量期刊上发表学术论文,曾获INFORMS Outstanding Simulation Publication Award。目前担任Asia-Pacific Journal of Operational Research副主编、《系统管理学报》领域主编,全国工业统计学教学研究会金融科技与大数据分会副理事长,北京运筹学会副秘书长,中国运筹学会金融工程与金融风险管理分会常务理事,管理科学与工程协会理事。
来源 | 北大光华学术资讯