问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

基于深度强化学习的智能兵棋推演决策方法

创作时间:
作者:
@小白创作中心

基于深度强化学习的智能兵棋推演决策方法

引用
1
来源
1.
https://www.ecice06.com/CN/10.19678/j.issn.1000-3428.0067067

兵棋推演是培养现代军事指挥员的重要方法,将人工智能技术引入到兵棋推演中可简化组织流程,提升推演效益。本文提出一种基于深度强化学习的智能兵棋推演决策方法,通过引入基准线加快策略网络训练,并构建低优势策略-价值网络模型及其训练框架。实验结果表明,在近似符合军事作战规则的兵棋作战实验环境中,低优势策略-价值网络模型的损失值从5.3下降到2.3,且收敛速度优于传统策略-价值网络。

兵棋推演是培养现代军事指挥员的重要方法,将人工智能技术引入到兵棋推演中可简化组织流程,提升推演效益。基于机器学习的智能兵棋常因态势信息过于复杂以及推演本身信息不完整,导致自主决策模型的样本决策效率降低。提出一种基于深度强化学习的智能兵棋推演决策方法。针对智能兵棋推演作战决策的效率问题,在策略网络中引入基准线,并加快策略网络训练,随后进行推导证明,提出加入基准线后策略网络参数的更新方法,分析将兵棋推演环境中的状态-价值函数引入到模型的过程。构建低优势策略-价值网络模型及其训练框架,在传统策略-价值网络下用于兵棋推演,结合战场态势感知方法对模型进行构建。实验结果表明,在近似符合军事作战规则的兵棋作战实验环境中,将传统策略-价值网络和低优势策略-价值网络进行对比训练,在400次的自博弈训练中,低优势策略-价值网络模型的损失值从5.3下降到2.3,且收敛速度优于传统策略-价值网络,低优势策略-价值网络模型的KL散度在训练过程中趋近于0。

智能兵棋推演决策框架

基于深度强化学习的智能兵棋推演决策框架如图1所示。该框架主要包括状态表示、动作选择、奖励函数和策略更新等关键组件。通过深度神经网络对战场态势进行编码,采用策略梯度方法优化决策策略,同时引入价值函数评估行动的长期收益。

图1 基于深度强化学习的智能兵棋推演决策框架

低优势策略-价值网络训练框架

低优势策略-价值网络训练框架如图2所示。该框架在传统策略-价值网络的基础上,引入了低优势估计机制,通过优化优势函数来提升训练效率和决策质量。具体来说,通过计算行动的实际回报与预期回报之间的差异,来调整策略网络的参数。

图2 低优势策略-价值网络训练框架

输入矩阵设计

低优势策略-价值网络的输入矩阵设计如图3所示。该矩阵包含了战场态势的关键信息,如敌我双方的兵力分布、地形特征等。通过卷积神经网络对输入矩阵进行特征提取,为后续的策略决策提供基础。

图3 低优势策略-价值网络的输入矩阵

战场环境示意图

战场环境示意图如图4所示。该图展示了典型的战场场景,包括敌我双方的阵地分布、重要目标位置等。通过模拟真实的战场环境,可以为兵棋推演提供更准确的决策支持。

图4 战场环境示意图

损失值下降趋势对比

低优势策略-价值网络和传统策略-价值网络的损失值下降趋势如图5所示。从图中可以看出,低优势策略-价值网络在训练初期就展现出更快的收敛速度,并且最终的损失值更低,说明该方法在优化效果上具有明显优势。

图5 低优势策略-价值网络和传统策略-价值网络的损失值下降趋势

KL散度趋势

KL散度趋势如图6所示。KL散度是衡量两个概率分布差异的指标,在这里用于评估策略网络的稳定性。从图中可以看出,随着训练的进行,KL散度逐渐趋近于0,说明策略网络的输出分布趋于稳定,决策质量得到提升。

图6 KL散度趋势

MCTS胜负率变化趋势

MCTS(蒙特卡洛树搜索)的胜负率变化趋势如图7所示。通过对比不同训练阶段的胜负率,可以看出随着训练的深入,模型的决策能力显著提升,最终在与传统策略-价值网络的对抗中展现出明显优势。

图7 MCTS的胜负率变化趋势

不同网络的博弈对抗

不同网络的博弈对抗结果如图8所示。通过对比低优势策略-价值网络与其他网络的对抗表现,可以看出该方法在复杂战场环境下的决策优势。特别是在面对多个对手时,低优势策略-价值网络展现出更强的适应性和鲁棒性。

图8 不同网络的博弈对抗

参考文献

[1] 黄柯棣, 刘宝全, 黄健, 等. 作战仿真技术综述[C]//全球化制造高级论坛暨21世纪仿真技术研讨会论文集. 北京: 中国系统仿真学会, 2004: 80-89.

[2] 赵慧赟, 张东戈. 战场指挥控制时效性影响因素分析.军事运筹与系统工程,2015,29(2): 12-16, 49.URL

[3] 尹强, 叶雄兵. 作战筹划方法研究.国防科技,2016,37(1): 95- 99.URL

[4] 曹占广, 陶帅, 胡晓峰, 等. 国外兵棋推演及系统研究进展.系统仿真学报,2021,33(9): 2059- 2065.URL

[5] 刘海洋, 唐宇波, 胡晓峰, 等. 基于兵棋推演的联合作战方案评估框架研究.系统仿真学报,2018,30(11): 4115-4122, 4131.URL

[6] SURDU J R. The deep green concept[C]//Processings of the 2008 Spring Simulation Multiconference. Berlin, Germany: Springer, 2008: 623-631.

[7] 李承兴, 高桂清, 鞠金鑫, 等. 基于人工智能深度增强学习的装备维修保障兵棋研究.兵器装备工程学报,2018,39(2): 61- 65.URL

[8] 张晓海, 操新文, 耿松涛, 等. 基于深度学习的军事辅助决策智能化研究.兵器装备工程学报,2018,39(10): 162- 167.URL

[9] 杨思明, 单征, 丁煜, 等. 深度强化学习研究综述.计算机工程,2021,47(12): 19- 29.URL

[10] 徐佳乐, 张海东, 赵东海, 等. 基于卷积神经网络的陆战兵棋战术机动策略学习.系统仿真学报,2022,34(10): 2181- 2193.URL

[11] SUTTON R S, MCALLESTER D, SINGH S, et al. Policy gradient methods for reinforcement learning with function approximation[EB/OL]. [2023-01-28].https://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=029AD004E9AAC8429FC7DBCA0844CF07?doi=10.1.1.79.5189&rep=rep1&type=pdf.

[12] 刘全, 翟建伟, 章宗长, 等. 深度强化学习综述.计算机学报,2018,41(1): 1- 27.URL

[13] WILLIAMS R J. Simple statistical gradient-following algorithms for connectionist reinforcement learning.Machine Learning,1992,8(3/4): 229- 256.

[14] RIEDMILLER M. Neural fitted Q iteration-first experiences with a data efficient neural reinforcement learning method[C]//Proceedings of European Conference on Machine Learning. Berlin, Germany: Springer, 2005: 317-328.

[15] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-level control through deep reinforcement learning.Nature,2015,518(7540): 529- 533.

[16] SUTTON R S. Learning to predict by the methods of temporal differences.Machine Learning,1988,3(1): 9- 44.

[17] CAO J Q, LIU Q, ZHU F, et al. Gradient temporal-difference learning for off-policy evaluation using emphatic weightings.Information Sciences,2021,580, 311- 330.

[18] YANG Z Y, MERRICK K, JIN L W, et al. Hierarchical deep reinforcement learning for continuous action control.IEEE Transactions on Neural Networks and Learning Systems,2018,29(11): 5174- 5184.

[19] 姚桐, 王越, 董岩, 等. 深度强化学习在作战任务规划中的应用.飞航导弹,2020,(4): 16- 21.URL

[20] MNIH V, GREGORY K. Asynchronous methods for deep reinforcement learning[C]//Proceedings of the 33rd International Conference on Machine Learning. New York, USA: ACM Press, 2016: 1-10.

[21] ZHAO T T, HACHIYA H, NIU G, et al. Analysis and improvement of policy gradient estimation.Neural Networks,2012,26, 118- 129.

[22] BRITTAIN M, BERTRAM J R, YANG X X, et al. Prioritized sequence experience replay[EB/OL]. [2023-01-28].https://arxiv.org/abs/1905.12726.

[23] SUTTON R S, BARTO A G. Reinforcement learning: an introduction[EB/OL]. [2023-01-28].https://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=000A1763D716FE87AFA47A6EFBF82AA1?doi=10.1.1.32.7692&rep=rep1&type=pdf.

[24] SCHULMAN J, LEVINE S, MORITZ P, et al. Trust region policy optimization[C]//Proceedings of the 32nd International Conference on Machine Learning. New York, USA: ACM Press, 2015: 1889-1897.

[25] KOCSIS L, SZEPESVÁRI C. Bandit based monte-carlo planning[EB/OL]. [2023-01-28].https://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=00B1B017DFD702ADF5F9FB8A6CD6B5EE?doi=10.1.1.102.1296&rep=rep1&type=pdf.

[26] DAVID S, AJA H, MADDISON CHRIS J, et al. Mastering the game of Go with deep neural networks and tree search.Nature,2016,529(7587): 484- 489.

[27] 李昊. 五子棋人机博弈算法优化研究与实现[D]. 大连: 大连海事大学, 2020.

本文原文来自《计算机工程》期刊,作者为胡水,发表于2023年。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号