基于深度强化学习的智能兵棋推演决策方法

引用

摘要：

兵棋推演是培养现代军事指挥员的重要方法,将人工智能技术引入到兵棋推演中可简化组织流程,提升推演效益.基于机器学习的智能兵棋常因态势信息过于复杂以及推演本身信息不完整,导致自主决策模型的样本决策效率降低.提出一种基于深度强化学习的智能兵棋推演决策方法.针对智能兵棋推演作战决策的效率问题,在策略网络中引入基准线,并加快策略网络训练,随后进行推导证明,提出加入基准线后策略网络参数的更新方法,分析将兵棋推演环境中的状态-价值函数引入到模型的过程.构建低优势策略-价值网络模型及其训练框架,在传统策略-价值网络下用于兵棋推演,结合战场态势感知方法对模型进行构建.实验结果表明,在近似符合军事作战规则的兵棋作战实验环境中,将传统策略-价值网络和低优势策略-价值网络进行对比训练,在400次的自博弈训练中,低优势策略-价值网络模型的损失值从5.3下降到2.3,且收敛速度优于传统策略-价值网络,低优势策略-价值网络模型的KL散度在训练过程中趋近于0.

关键词：兵棋、态势感知、深度强化学习、卷积神经网络、演员-评论家方法

所属期刊栏目：49

分类号：TP391(计算技术、计算机技术)

在线出版日期：2023-09-25（万方平台首次上网日期，不代表论文的发表时间）

页数：共10页

页码：303-312

英文信息展示

期刊专题